Diskussion:GPTZero
Der Artikel „GPTZero“ wurde im Dezember 2024 für die Präsentation auf der Wikipedia-Hauptseite in der Rubrik „Schon gewusst?“ vorgeschlagen. Die Diskussion wird voraussichtlich hier archiviert. Der Tag der Einbindung auf der Hauptseite ist noch nicht bekannt oder nicht eingetragen. |
Falsch kategorisiert
@Alpenhexe: In der Kategorie:Chatbot ist der Artikel völlig falsch! Das ist eine WP:Objektkategorie für Artikel zu einzelnen Chatbots (Aufnahmekrieterium „ist ein Chatbot“) und keine WP:Themenkategorie „rund um“ Chatbots. --Olaf Studt (Diskussion) 23:36, 10. Dez. 2024 (CET)
- Danke für den Hinweis. Gibt es auch eine Kategorie "rund um" Chatbots? --Alpenhexe (Diskussion) 14:11, 11. Dez. 2024 (CET)
Neutralität, Quellen
- Da GPTZero KI-generierte Texte nicht mit Sicherheit identifizieren kann, ist die Einleitung „GPTZero ist eine Software, die Texte oder Textteile identifizieren kann, die von Sprachmodellen der künstlichen Intelligenz (KI) erzeugt wurden.“ irreführend. Mit einem recht hohen Prozentsatz richtig zu liegen, ist noch lange keine Identifikation, die einen Nachweis bzw. eine Verifizierung erfordert.
- Die Angabe des Kaufpreises ist bei Software unüblich.
- Weshalb wurden bei der Erstellung des Artikels keine der über GPTZero vorliegenden wissenschaftlichen Publikationen, die gemäß WP:Q als Quellen zu bevorzugen sind, herangezogen?
- --Kompetenter (Diskussion) 12:56, 30. Dez. 2024 (CET)
- Generell: es gibt ein großes Kapitel "Ergebnisse des Tools und Kritik", von einer Jubelorgie kann also nicht die Rede sein. Und einen Neutralitätsbaustein reinzudrücken als Revanche für die (verdiente) VM ist auch nicht gerade guter Stil.
- Deine Punkte:
- zu 1: Wenn ein Tool mit 98% ein Textteil erkennen kann, dann ist das eine extrem hohe Erfolgsquote. Und damit kann man guten Gewissens schreiben, dass es dies identifizieren kann. Wenn man so wie du schreibst, "soll" suggeriert das, dass das Tool das nicht kann. Was eindeutig falsch ist.
- zu 2: Ist vielleicht unüblich, aber nicht verboten. Wo ist das Problem?
- zu 3: Es wurden mehrere Studien genannt, so zum Beispiel die University of Maryland und noch 3 andere Auswertungen. Von keinen Belegen über die Ergebnisse des Tools kann also keine Rede sein.
- Aber lassen wir die Feindseligkeiten, das ist nur destruktiv und bringt uns und schon gar nicht den Artikel weiter. Ich bitte dich daher, dass auch zu lassen. Ich habe auch gesehen, dass Du selbst erkannt hast, dass dein erster Beleg keine gute Quelle ist.
- Dein zweiter Beleg ist dagegen eine sehr gute Quelle, ich habe ihn gerade überflogen. Dieser sollte in dem Kapitel "Ergebnisse des Tools und Kritik" genannt werden. Interessanterweise wird in dieser Studie das Tool mit "high Accurany" angegeben (Tabelle 1, Tabelle 2) und in Figure 1 mit nur 2% inkorrekt. Bevor Du aber etwas einfügst, sollen wir den einzufügenden Text hier abstimmen (sorry, aber mein Vertrauen gegenüber dir ist grad etwas aufgebraucht). --Alpenhexe (Diskussion) 13:57, 30. Dez. 2024 (CET)
- „While all three of the most accurate detectors require registration and payment for full functionality, the three others that require payment – GPTZero, GPT Radar, and Sapling – have just average or below-average accuracy.“ --Kompetenter (Diskussion) 13:59, 30. Dez. 2024 (CET)
- Ich bin hier bei Kompetenter, im Einleitungssatz sollte herausgestellt werden, dass das Tool nicht fehlerfrei arbeitet. Ich habs mit eigenen Texten getestet, die seien teils angeblich von ChatGPT, was hahnebüchener Unsinn ist. Teils gabs zum Erstellzeitpunkt der Texte noch gar kein ChatGPT. --ɱ 14:07, 30. Dez. 2024 (CET)
- eigene Test sind leider nicht sehr hilfreich (ich habe auch getestet, dabei eine sehr hohe Trefferquote erzielt, das zeigt aber nur, dass eigene Tests nichts bringen. --Alpenhexe (Diskussion) 14:10, 30. Dez. 2024 (CET)
- Nochmals: was ist der Textvorschlag? ich will den hier abstimmen, bevor der Artikel geändert wird. Danke. --Alpenhexe (Diskussion) 14:10, 30. Dez. 2024 (CET)
- Mein Vorschlag, nah bei Beleg 1, der – in einem wissenschaftlichen Fachverlag erschienen – eine gute Quelle ist, ist: „GPTZero ist ein Computerprogramm, das menschlich generierte Texte von durch Large Language Models erzeugten Texten unterscheiden soll.“ Das Modewort KI ist zu ungenau. --Kompetenter (Diskussion) 14:13, 30. Dez. 2024 (CET)
- Mit Beleg 1 ist das Buch von Florian Rötzer gemeint, das du als meinen ersten Beleg bezeichnet hast. --Kompetenter (Diskussion) 14:19, 30. Dez. 2024 (CET)
- "soll" geht genauso wenig wie "angeblich", das ist eine Wertung, die durch den Artikel nicht gedeckt ist. --Alpenhexe (Diskussion) 14:21, 30. Dez. 2024 (CET)
- Das ist ein Mangel des Artikels. --Kompetenter (Diskussion) 14:25, 30. Dez. 2024 (CET)
- "soll" geht genauso wenig wie "angeblich", das ist eine Wertung, die durch den Artikel nicht gedeckt ist. --Alpenhexe (Diskussion) 14:21, 30. Dez. 2024 (CET)
- Mit Beleg 1 ist das Buch von Florian Rötzer gemeint, das du als meinen ersten Beleg bezeichnet hast. --Kompetenter (Diskussion) 14:19, 30. Dez. 2024 (CET)
- Mein Vorschlag, nah bei Beleg 1, der – in einem wissenschaftlichen Fachverlag erschienen – eine gute Quelle ist, ist: „GPTZero ist ein Computerprogramm, das menschlich generierte Texte von durch Large Language Models erzeugten Texten unterscheiden soll.“ Das Modewort KI ist zu ungenau. --Kompetenter (Diskussion) 14:13, 30. Dez. 2024 (CET)
- Nochmals: was ist der Textvorschlag? ich will den hier abstimmen, bevor der Artikel geändert wird. Danke. --Alpenhexe (Diskussion) 14:10, 30. Dez. 2024 (CET)
- eigene Test sind leider nicht sehr hilfreich (ich habe auch getestet, dabei eine sehr hohe Trefferquote erzielt, das zeigt aber nur, dass eigene Tests nichts bringen. --Alpenhexe (Diskussion) 14:10, 30. Dez. 2024 (CET)
Ok, Textvorschlag meinerseits im Kapitel "Ergebnisse des Tools und Kritik" um eine etwas ausführlicher Darstellung zu ermöglichen: In einer Metastudie, die unterschiedliche Auswertungen vergleicht, wurde GTPZero in einigen Test eine hohe Genauigkeit attestiert (Tabelle 1, 2). Die Auswertung ergab, dass nur 2% der KI- generierten Texte als inkorrekt identifiziert wurden, 80% als korrekt und der Rest als unsicher (figure 1). Andrerseits hat GPTZero bei von Menschen erzeugten Texten eine relativ hohe falsch-positiv Rate: 4% waren inkorrekt, aber nur 60% korrekt, der Rest unsicher. --Alpenhexe (Diskussion) 14:38, 30. Dez. 2024 (CET)
- Da es keinen Widerspruch gibt, gehe ich davon aus, dass es ok ist, dass der Text, der die Quelle nennt, genau so eingefügt wird. Der Neutralitätsbaustein wurde auch damit begründet, dass nicht alle Quellen ausgewertet wurden und diese Quelle angeführt. Da der Beleg und deren Inhalt jetzt drin ist, kann der Neutralitätsbaustein auch wieder entfernt werden. --Alpenhexe (Diskussion) 14:47, 1. Jan. 2025 (CET)
- Der Neutralitätsbaustein ist wieder drin, da der Einleitungssatz immer noch irreführend ist. --Kompetenter (Diskussion) 14:56, 1. Jan. 2025 (CET)
- Nein, ist er nicht. Der Einleitungssatz bildet genau das ab, was im Text steht. Höre bitte mit dem wiederholten Revertieren auf, das macht keinen Sinn. --Alpenhexe (Diskussion) 14:58, 1. Jan. 2025 (CET)
- Erstens war das kein Revert und zweitens folgt die Bestätigung des Neutralitätsbausteins mit der Ersetzung der relevanten Information „hat im Vergleich mit ähnlichen Tools eine durchschnittliche Genauigkeit bei der Identifizierung von KI-generierten Texten“ durch einen werblichen Superlativ auf dem Fuße: „GPTZero ist eines der kommerziell erfolgreichsten KI Identifizierungstools und wird sehr häufig eingesetzt (Stand Juli 2024).“ (Diff). --Kompetenter (Diskussion) 15:06, 1. Jan. 2025 (CET)
- Nochmals: die Einleitung soll nur zusammenfassen, was im Artikel steht.
- Und in der Einleitung steht klar und deutlich: "Während GPTZero für seine Bemühungen, akademische Unehrlichkeit zu verhindern, gelobt wurde, wird auf der anderen Seite auch die Falsch-Positiv-Rate des Tools kritisiert." und dass fasst exakt dass zusammen, was unter "Ergebnisse des Tools und Kritik" steht. Damit ist klar ausgedrückt, dass es nicht perfekt ist. Ich habe nirgends in der Studie gelesen, dass es im Vergleich mit ähnlichen Texten eine durchschnittliche Genauigkeit hat - das ist einzig und alleine deine Interpretation. --Alpenhexe (Diskussion) 15:15, 1. Jan. 2025 (CET)
- Ich habe es doch sogar hier zitiert! --Kompetenter (Diskussion) 15:17, 1. Jan. 2025 (CET)
- Und das Zitiat schön aus dem Zusammenhang gerissen, weil er in deine Argumentation passt. Der von dir zitierte Satz sagt dies deshalb weil, das Tool viel KI findet, aber eine hohe falsch-positiv Rate hat. Das ist genauer als nur "average". Und eigentlich auch viel kritischer, da eine hohe falsch-positiv Rate auch nicht gut ist.
- Das rechtfertigt keineswegs ein "soll" oder "angeblich" im ersten Satz. --Alpenhexe (Diskussion) 15:30, 1. Jan. 2025 (CET)
- Und der Satz in der Einleitung "GPTZero ist eines der kommerziell erfolgreichsten KI Identifizierungstools und wird sehr häufig eingesetzt (Stand Juli 2024)." fasst das zusammen, was unter Geschichte steht. Also auch nur eine Zusammenfassung. --Alpenhexe (Diskussion) 15:18, 1. Jan. 2025 (CET)
- Ich habe es doch sogar hier zitiert! --Kompetenter (Diskussion) 15:17, 1. Jan. 2025 (CET)
- Nein, ist er nicht. Der Einleitungssatz bildet genau das ab, was im Text steht. Höre bitte mit dem wiederholten Revertieren auf, das macht keinen Sinn. --Alpenhexe (Diskussion) 14:58, 1. Jan. 2025 (CET)
- Der Neutralitätsbaustein ist wieder drin, da der Einleitungssatz immer noch irreführend ist. --Kompetenter (Diskussion) 14:56, 1. Jan. 2025 (CET)
Wenn ich richtig gelesen hab, kann nach der Metastudie das Tool über 95% der KI-Generierten Texte erkennen. Ein "soll" oder "angeblich" im ersten Satz der Lemmadefinition verfälscht dieses Ergebnis. --Zeniatta (Diskussion) 16:15, 1. Jan. 2025 (CET)
- Bitte richtig lesen, da steht z.B. "GPTZero [hat] bei von Menschen erzeugten Texten eine relativ hohe falsch-positiv Rate" --ɱ 16:22, 1. Jan. 2025 (CET)
- Der erste Satz sagt, dass das Tool mit hoher Wahrscheinlichkeit KI generierten Text erkennen kann. Und zwar laut Studie zu 98% richtig. Ist damit ein richtige Aussage.
- Was hat das mit der falsch-positiv Rate zu tun? Die im übrigen auch in der Lemmadefinition erwähnt wird, daher keineswegs unterschlagen wird. --Alpenhexe (Diskussion) 16:35, 1. Jan. 2025 (CET)
- Das hat sehr viel damit zu tun, wenn menschliche Texte fehlerhaft als KI erkannt werden und das zu Problemen für die Verfasser führt. Und man kann keine Software nur einseitig betrachten und das unliebsame ausblenden. Ein guter Vergleich sind Spamfilter. Wenn aufgrund häufigen Falsch-Positives erwünschte E-Mails im Junk-Ordner landen oder gar abgelehnt werden, ist nichts gewonnen, auch wenn Spam selbst nicht mehr durchkommt. --ɱ 17:22, 1. Jan. 2025 (CET)
- Vielleicht kann ich nicht richtig lesen, aber trotz meines Bemühens verstehe ich den Einwand nicht.
- Die Aussage ist doch, daß das Tool Ki-Generierte Texte erkennen kann. Das tut es auch. Dass auch Falsch-Positives dabei ist, steht dieser Aussage nicht entgegen. Darum wird dieser Aspekt ein Satz später aufgenommen.
- Ein "angeblich" in der Grundaussage würde bedeuten, dass es KI-Texte "nicht" erkennen kann. Das stimmt so nicht, es erkennt KI-Texte. Es kann menschliche Texte nicht völlig fehlerfrei identifizieren. Das wird nicht verheimlicht.
- Wo ist das Problem mit der Neutralität? --Zeniatta (Diskussion) 17:46, 1. Jan. 2025 (CET)
- Der Unterschied ist, dass von sämtlichen Texten in den Studien der Übersichtsarbeit im Vorhinein bekannt war, ob sie durch ein LLM oder einen Mensch erzeugt wurden und nur so die Genauigkeit bestimmt werden konnte. Bei beliebigen Texten ist das nicht möglich. Die Bedeutung der Wörter sollen und angeblich bitte noch einmal nachschlagen. Diese sind lediglich Ausdruck kritischer Distanz. --Kompetenter (Diskussion) 18:06, 1. Jan. 2025 (CET)
- +1 --ɱ 18:08, 1. Jan. 2025 (CET)
- Danke für die Anregung das Wort nachzuschlagen:
- angeblich:
- - Duden: nicht verbürgt, scheinbar, vermeintlich, vorgeblich [1]
- - openTehesaurus: behauptet, der falsche, scheinbar
- - Oxford Languages: so, dass etwas nicht bewiesen ist und daher nur behauptet wird --Alpenhexe (Diskussion) 19:10, 1. Jan. 2025 (CET)
- Und natürlich mussten bei der Messung der Ergebnisse vorher bekannt sein (den Testern, nicht dem Tool), welche Texte KI generiert und welchen von Menschen gemacht sind, um die Antworten des Tools richtig zuordnen zu können (zu korrekt, nicht korrekt). Das nennt man wissenschaftliche Testmethode. Ergo dass muss so sein, sonst kann man ja nicht messen. --Alpenhexe (Diskussion) 19:16, 1. Jan. 2025 (CET)
- Du verfehlst den Sinn. Die Aussage, die Software könne beliebige KI-generierte Texte identifizieren, kann die Studie rein methodisch nicht treffen, da der Texturprung ohne zusätzliche Informationen nach einer Prüfung durch das Programm nicht objektiv festgestellt werden kann. Wissenschaftliche Testmethode ist übrigens kein feststehender Begriff. --Kompetenter (Diskussion) 19:25, 1. Jan. 2025 (CET)
- Du triffst eine Auswahl an Synonymen anstatt die korrekte Bedeutung „wie behauptet wird“ anzuführen. --Kompetenter (Diskussion) 19:16, 1. Jan. 2025 (CET)
- Im Wörterbuch Duden steht exakt:
- bei angeblich: wie behauptet wird, vermeintlich; nicht verbürgt [2]
- Nochmal: es ist durch die verschiedenen Studien bewiesen, dass GPTZero 98% der KI Generierten Texte finden kann. Das wird nicht behauptet, es ist auch nicht vermeintlich, sondern verbürgt. --Alpenhexe (Diskussion) 19:25, 1. Jan. 2025 (CET)
- Ist dir bekannt, dass ein Wort mehrere sinnverschiedene Bedeutungen haben kann? 98 % (die nicht zutreffen, vgl. Fig. 3) sind nicht 100 % und selbst wenn alle Texte richtig erkannt worden wären, müsste dies zukünftig nicht der Fall sein. --Kompetenter (Diskussion) 19:29, 1. Jan. 2025 (CET)
- Und natürlich mussten bei der Messung der Ergebnisse vorher bekannt sein (den Testern, nicht dem Tool), welche Texte KI generiert und welchen von Menschen gemacht sind, um die Antworten des Tools richtig zuordnen zu können (zu korrekt, nicht korrekt). Das nennt man wissenschaftliche Testmethode. Ergo dass muss so sein, sonst kann man ja nicht messen. --Alpenhexe (Diskussion) 19:16, 1. Jan. 2025 (CET)
- +1 --ɱ 18:08, 1. Jan. 2025 (CET)
- Der Unterschied ist, dass von sämtlichen Texten in den Studien der Übersichtsarbeit im Vorhinein bekannt war, ob sie durch ein LLM oder einen Mensch erzeugt wurden und nur so die Genauigkeit bestimmt werden konnte. Bei beliebigen Texten ist das nicht möglich. Die Bedeutung der Wörter sollen und angeblich bitte noch einmal nachschlagen. Diese sind lediglich Ausdruck kritischer Distanz. --Kompetenter (Diskussion) 18:06, 1. Jan. 2025 (CET)
- Das hat sehr viel damit zu tun, wenn menschliche Texte fehlerhaft als KI erkannt werden und das zu Problemen für die Verfasser führt. Und man kann keine Software nur einseitig betrachten und das unliebsame ausblenden. Ein guter Vergleich sind Spamfilter. Wenn aufgrund häufigen Falsch-Positives erwünschte E-Mails im Junk-Ordner landen oder gar abgelehnt werden, ist nichts gewonnen, auch wenn Spam selbst nicht mehr durchkommt. --ɱ 17:22, 1. Jan. 2025 (CET)
Dritte Meinung
Die Lemmadfinition lautet "GPTZero ist eine Software, die Texte oder Textteile identifizieren kann, die von Sprachmodellen der künstlichen Intelligenz (KI) erzeugt wurden" und im weiteren "Während GPTZero für seine Bemühungen, akademische Unehrlichkeit zu verhindern, gelobt wurde, wird auf der anderen Seite auch die Falsch-Positiv-Rate des Tools kritisiert."
Diese Zusammenfassung stützt sich auf die Ergebnisse im Kapitel "Ergebnisse des Tools und Kritik" in der die Fachpresse und Studien ausgewertet werden. Diese ergaben, dass nur 2% der KI genierten Texte nicht erkannt werden (gute Trefferrate), aber eine vergleichsweise hohe falsch-positiv Rate hat.
Kompetenter will nun im ersten Satz "angeblich" einfügen, das würde bedeuten "GPTZero ist eine Software, die angeblich Texte oder Textteile identifizieren kann, die von Sprachmodellen der künstlichen Intelligenz (KI) erzeugt wurden". Angeblich bedeutet laut Duden: wie behauptet wird, vermeintlich, nicht verbürgt und wird daher von mir abgelehnt, da es den Sinn des Artikel nicht korrekt zusammenfasst. --Alpenhexe (Diskussion) 19:56, 1. Jan. 2025 (CET)
- Falsch, mein Vorschlag für den ersten Satz der Einleitung ist weiter oben zu lesen und enthält das Wort angeblich nicht. --Kompetenter (Diskussion) 20:06, 1. Jan. 2025 (CET)
- Warum wird dann um das Wort gestritten? Jetzt bin ich wirklich irritiert. --Alpenhexe (Diskussion) 20:09, 1. Jan. 2025 (CET)
- Das musst du dich selbst fragen. --Kompetenter (Diskussion) 20:28, 1. Jan. 2025 (CET)
- Gut, dann könnt ihr mit der 3. Meinung aufhören und die Lemmabeschreibung lassen wie sie ist. --Zeniatta (Diskussion) 20:33, 1. Jan. 2025 (CET)
- Nein, ich habe den Gegenvorschlag GPTZero ist ein Computerprogramm, das menschlich generierte Texte von durch Large Language Models erzeugten Texten unterscheiden soll. gemacht und halte den aktuellen Einleitungssatz für tendenziös. --Kompetenter (Diskussion) 20:35, 1. Jan. 2025 (CET)
- Nunja, jetzt bist du von angeblich auf soll umgeschwenkt (soll ich jetzt auch die Bedeutung von sollen nochmals raussuchen?)
- In diesen Zusammenhang ist "soll" genauso tendenziös wie "angeblich", da es suggeriert, dass das Tool KI generierte Texte finden soll, aber offensichtlich nicht kann. Also die gleiche Verdrehung wie bei "angeblich".
- Large Language Models sind KI, das macht es nur schwerer lesbar, sonst nichts.
- es sind Texte und Textteile, da das Tool nicht nur komplette Texte prüfen kann, sondern auch Textteile. --Alpenhexe (Diskussion) 20:52, 1. Jan. 2025 (CET)
- Den Vorschlag habe ich am 30. Dez. um 14:13 Uhr gemacht. Auf den Rest gehe ich später ein. --Kompetenter (Diskussion) 20:53, 1. Jan. 2025 (CET)
- Soll drückt aus, dass GPTZero die Aufgabe hat, KI-generierte und von Menschen geschriebene Texte zu unterscheiden. Nicht mehr und nicht weniger. Dass der Anwendung dies manchmal gelingt und manchmal nicht, wird im weiteren Verlauf des Artikels erläutert. KI ist ein schwammiger Überbegriff, LLM ist weitaus präziser, denn es gibt auch Sprachmodelle, die unter KI fallen und keine LLM sind, das heißt nicht mit großen Datenmengen trainiert wurden. Ob Textteile mit erwähnt werden sollten, hängt davon ab, welche Textdefinition man zugrunde legt, aber ist eine „inhaltlich zusammenhängende Folge von Aussagen“ (Duden) gemeint, so ist für mich die Ergänzung in Ordnung. --Kompetenter (Diskussion) 22:04, 1. Jan. 2025 (CET)
- Sollen drückt eine Aufforderung, eine Anweisung aus, etwas bestimmtes zu tun. Sollen drückt auch aus, dass ein bestimmtes Verhalten geboten ist oder gewünscht wird, bzw. etwas Bestimmtes zu erwarten wäre, bzw. bzw. wünschenswert, richtig, vorteilhaft wäre. Das sind die Definitionen laut Duden. Es drückt nicht aus, dass GTPZero etwas tut. Und GTPZero hat nicht nur die Aufgabe, es macht es auch. Damit ist Sollen nicht angebracht. --Alpenhexe (Diskussion) 09:10, 2. Jan. 2025 (CET)
- 3M: Ich stimme zu, dass sich soll sprachlich lediglich auf die Aufgabenbeschreibung bezieht und keine Aussage über die Qualität der Ergebnisse trifft. Zum Vergleich: Durch die Installation einer Ampel soll die Unfallhäufigkeit reduziert werden. --Vertigo Man-iac (Diskussion) 09:16, 2. Jan. 2025 (CET)
- Nein, ich habe den Gegenvorschlag GPTZero ist ein Computerprogramm, das menschlich generierte Texte von durch Large Language Models erzeugten Texten unterscheiden soll. gemacht und halte den aktuellen Einleitungssatz für tendenziös. --Kompetenter (Diskussion) 20:35, 1. Jan. 2025 (CET)
- Gut, dann könnt ihr mit der 3. Meinung aufhören und die Lemmabeschreibung lassen wie sie ist. --Zeniatta (Diskussion) 20:33, 1. Jan. 2025 (CET)
- Das musst du dich selbst fragen. --Kompetenter (Diskussion) 20:28, 1. Jan. 2025 (CET)
- Warum wird dann um das Wort gestritten? Jetzt bin ich wirklich irritiert. --Alpenhexe (Diskussion) 20:09, 1. Jan. 2025 (CET)
- Dass nur 2 % nicht erkannt würden, ist auch falsch. Es gibt einen Unterschied zwischen nicht erkennen und inkorrekt erkennen. Die richtige Genauigkeit, Tabelle 4 der Metastudie zu entnehmen, beträgt 81 %, da 15 % uncertain und 4 % inkorrekt sind. --Kompetenter (Diskussion) 20:27, 1. Jan. 2025 (CET)
- Hier noch einmal der Link zur frei zugänglichen Studie: [3]. --Kompetenter (Diskussion) 20:27, 1. Jan. 2025 (CET)
- Je nachdem welche Studie zitiert wird. Figure 2 sagt ja was anderes.
- Der Absatz im Artikel in dem die Studie zitiert wird, stand 2 Tage hier zur Diskussion. Du hast dich nicht beteiligt, obwohl du fleißig editiert hast. Warum beteiligst du nicht konstruktiv am Artikel? Das würde ich sehr begrüßen. Statt hier nur eine Wertung in den ersten Satz der Lemmadiskussion reindrücken zu wollen, sorry, aber das ist nicht konstruktiv. --Alpenhexe (Diskussion) 21:39, 1. Jan. 2025 (CET)
- Was zählt, ist natürlich der Durchschnitt für All papers, nicht nur der derer, die von ChatGPT 3.5 generiert wurden. Ich beteilige mich hier nur ungerne, weil es mir keinen Spaß macht, und habe dennoch – so viel zu „nicht konstruktiv“ – einen Gegenvorschlag gemacht. --Kompetenter (Diskussion) 21:54, 1. Jan. 2025 (CET)
- Über Silvester mangelnde Beteiligung vorzuwerfen ist nicht sachdienlich. Wir sind hier alle ehrenamtlich unterwegs und der Artikelausbau hat keine Eile. Ein paar Tage Zeit solltest du den hier Anwesenden schon zugestehen. --ɱ 10:44, 2. Jan. 2025 (CET) PS: hab mal in der Wikipedia_Diskussion:Redaktion_Informatik#GPTZero um weitere Meinungen gefragt.
Also ich präzisiere meine Frage: Soll der erste Satz des Artikel so bleiben wie er ist (siehe oben)? Insbesondere geht es darum, ob im ersten Satz der Lemmadefinition Sollen eingefügt wird oder nicht (und nicht mehr angeblich). Das ist aber keine Verbesserung. --Alpenhexe (Diskussion) 20:12, 1. Jan. 2025 (CET)
- Das Wort soll fände ich neutraler als kann und angeblich. Aber wie wäre es mit einer Umformulierung analog zum Thermometer: „GPTZero ist eine Software zur Identifikation von Texten oder Textteilen, die von Sprachmodellen der künstlichen Intelligenz (KI) erzeugt wurden.“? Damit wäre der Streit umgangen und der Satz liest sich m. M. etwas flüssiger. --Sommozzatore (Diskussion) 10:10, 2. Jan. 2025 (CET)
- Danke @Sommozzatore, das finde ich einen sehr guten Kompromiss. @Kompetenter, wenn Du auch zustimmst, dann können wir das hier beenden. --Alpenhexe (Diskussion) 10:43, 2. Jan. 2025 (CET)
- Nein, dieser Vorschlag ist nicht zufriedenstellend. Zum einen, weil er immer noch „Sprachmodelle der künstlichen Intelligenz“ enthält (siehe meinen Beitrag von gestern um 22:04 Uhr; nebenbei: ob GPTZero überhaupt Texte, die nicht von generativen vortrainierten Transformern erzeugt wurden, erkennen kann, ist fraglich) und zum anderen sollte erwähnt werden, dass GPTZero auch für sich beansprucht, zwischen von Menschen und von LLM generierten Texten zu unterscheiden, weil dies die Funktionsweise verdeutlicht (und – nicht zu vergessen – da Texte nicht nur von Menschen und LLM geschrieben werden können, siehe Infinite-Monkey-Theorem). Spätestens im zweiten Satz sollte dann die Einschränkung erfolgen, dass GPTZero eben nicht zuverlässig identifizieren kann. --Kompetenter (Diskussion) 13:21, 2. Jan. 2025 (CET)
- Wir können "Sprachmodelle der künstlichen Intelligenz" durch "Large Language Models" ersetzen. Ich halte das zwar für schwerer lesbar mit der nahezu gleichen Aussage, aber wir müssen diese Endlosdiskussion beenden. Die Einschränkung, dass GPTZero nicht immer zuverlässig ist, ist bereits seit Anfang drin und zwar mit dem Satzteil "wird auf der anderen Seite auch die Falsch-Positiv-Rate des Tools kritisiert" - wenn Du behauptest, es gebe keine Kritik, das ist das eine reine Nebelkerzentaktik.
- So, jetzt bist Du am Zug: Wikipedia ist ein kollaboratives Projekt, das von Kompromissen lebt. Du kannst dich nicht immer nur stur stellen und deine Sichtweise durchdrücken wollen. Jetzt musst du entgegenkommen. --Alpenhexe (Diskussion) 15:03, 2. Jan. 2025 (CET)
- Die Aussagen zur Zuverlässigkeit sollten mMn nicht in die Einleitung. Das sind keine Kerneigenschaften der Software. Im Hauptteil des Artikel sollte der Aspekt natürlich erwähnt werden. In der Einleitung würde ich mich auf eine allgemeine Beschreibung der Software (Aufgabenstellung und ggf. Vorgehensweise) beschränken. --Vertigo Man-iac (Diskussion) 15:09, 2. Jan. 2025 (CET)
- Nein, dieser Vorschlag ist nicht zufriedenstellend. Zum einen, weil er immer noch „Sprachmodelle der künstlichen Intelligenz“ enthält (siehe meinen Beitrag von gestern um 22:04 Uhr; nebenbei: ob GPTZero überhaupt Texte, die nicht von generativen vortrainierten Transformern erzeugt wurden, erkennen kann, ist fraglich) und zum anderen sollte erwähnt werden, dass GPTZero auch für sich beansprucht, zwischen von Menschen und von LLM generierten Texten zu unterscheiden, weil dies die Funktionsweise verdeutlicht (und – nicht zu vergessen – da Texte nicht nur von Menschen und LLM geschrieben werden können, siehe Infinite-Monkey-Theorem). Spätestens im zweiten Satz sollte dann die Einschränkung erfolgen, dass GPTZero eben nicht zuverlässig identifizieren kann. --Kompetenter (Diskussion) 13:21, 2. Jan. 2025 (CET)
- Danke @Sommozzatore, das finde ich einen sehr guten Kompromiss. @Kompetenter, wenn Du auch zustimmst, dann können wir das hier beenden. --Alpenhexe (Diskussion) 10:43, 2. Jan. 2025 (CET)
Erfolgreich
@Kompetenter: Du hast den Satz "GPTZero ist das erfolgreichste Tool zur Identifizierung von KI generierten Texten" in "GPTZero hat im Vergleich mit ähnlichen Tools eine durchschnittliche Genauigkeit bei der Identifizierung von KI generierten Texten" geändert. Tatsache ist, dass der Satz falsch verstanden wurde (sorry, falls dass ich ihn offensichtlich nicht eindeutig formuliert habe und damit Missinterpretationen ermöglicht hatte).
Das erfolgreich bezog sich NICHT auf die Genauigkeit der Identifikation, sondern darauf, dass es das Tool mit der größten Reichweite und dem meisten Einsatz ist. Genau das erschließt sich auch aus dem Beleg.
Ich werde das daher ändern in " GPTZero ist das reichweiten stärkste Tool zur Identifizierung von KI generierten Texten", damit ist das auch wieder schlüssig mit der Kapitalsammlung. --Alpenhexe (Diskussion) 14:19, 30. Dez. 2024 (CET)
- Bitte gib eine Passage des Bloomberg-Artikels an, die das belegt. Reichweite ist m. E. kein passender Begriff. --Kompetenter (Diskussion) 14:28, 30. Dez. 2024 (CET)
- am häufigsten genutzt? --Alpenhexe (Diskussion) 14:34, 30. Dez. 2024 (CET)
Einleitung
Hallo @Mary Joanna: was soll das? Du hast mit deinen wiederholten Löschungen wieder einen Editwar begonnen (nachdem du offensichtlich auch gestern deswegen eine VW hattest). Ich habe heute schon eine VM gestellt und es muss nicht unbedingt eine zweite geben, deshalb versuche ich es erstmals so.
Das bringt uns doch nicht weiter. Können wir nicht friedlich darüber diskutieren? Wie wäre es, wenn du dich an der Diskussion beteiligst? Natürlich steht der Text gerade in Diskussion (nämlich nur einen Abschnitt höher), er ist nämlich in einen engen Zusammenhang mit dem anderen diskutiertem Satzteil. Es wäre gut, wenn es da eine Einigung geben würde. --Alpenhexe (Diskussion) 15:49, 30. Dez. 2024 (CET)
- Ich habe gar nichts gelöscht, sondern den Satz lediglich verschoben. Dann doch bitte WP:WQ #10 beachten: keine Namen in Überschriften. Und dass es gestern eine VM wegen Editwar gegen mich gab ist eine falsche Tatsachenbehauptung und im übrigen ist das Wedeln mit VMs als Argumentum ad hominem nicht sachdienlich, dieser Diskussions-Stil ist unter aller Würde. Einschlägig ist hier WP:INTRO: „Unmittelbar nach der Definition sollte eine kurze Einleitung mit einer Zusammenfassung der wichtigsten Aspekte des Artikelinhalts folgen.“ + „Erwähne Superlative in der Einleitung nur, falls sie zur Erklärung des Lemmas maßgeblich beitragen oder sich das Lemma ausdrücklich auf solche Besonderheiten (ältester, größter) stützt. Andere Superlative gehören an passende Stellen im Fließtext.“ – der Fakt, dass GPTZero „das meiste Kapital“ eingesammelt hatte, fand sich ausschließlich in der Einleitung. Es gehört jedoch in den Artikeltext. --ɱ 16:03, 30. Dez. 2024 (CET)
- Für WP:WQ entschuldige ich mich ausdrücklich, es tut mir leid, dass mir das durchgerutscht ist. Kommt nicht wieder vor.
- Es steht auch im Artikeltext (schon vorher) aber eben nicht als Zusammenfassung, sondern die Details. Jetzt die Zusammenfassung hinten dranzupacken ist nicht sonderlich elegant.
- Könntest du dich jetzt an einer zielgerichteten sachlichen Diskussion wie der Text in Zukunft aussehen soll, beteiligen? --Alpenhexe (Diskussion) 16:29, 30. Dez. 2024 (CET)
- Entschuldigung angenommen. Wie bereits erwähnt, gehört dieses Superlativ gemäß der verlinkten Richtlinie generell nicht in die Einleitung. Auch der Beleg #1 sollte eher in den Artikeltext eingearbeitet werden und in der Einleitung der Abschnitt „Ergebnisse des Tools und Kritik“ in einem Satz zusammengefasst werden. Dies hat aber auch Zeit, bis die obigen Punkte zu einer Einigung geführt wurden. --ɱ 16:33, 30. Dez. 2024 (CET)