Zwar gibt ChatGPT wie gewohnt geschliffene Antworten und weiss zu jeder Frage eine Antwort ohne zu zögern. Gleichzeitig scheint der Wahrheitsgehalt der Antworten stetig zu sinken, glaubt man der Studie der Standford und Berkley Universitäten.
Da die Einzelheiten der Aktualisierungen von ChatGPT nicht öffentlich zugänglich sind, untersuchten die Forscher, wie sich die Antworten von ChatGPT im Zeitverlauf veränderten.
Es wurde sowohl von GPT-3.5 als auch GPT-4 die Fähigkeit getestet, mathematische Probleme zu lösen, sensible Fragen zu beantworten, Code zu generieren und Aufgaben zum visuellen Denken zu lösen. Dies zwischen März und Juni 2023.
Die Forscher erstellten z.B. einen Software-Code mit 50 einfachen Fehlern drin und forderten ChatGPT auf, diese Probleme zu korrigieren, so dass der Code korrekt ausgeführt werden konnte. Im März waren 52% der Ergebnisse ausführbar, im Juni noch 10%.
Die Forscher stellten fest, dass GPT-3.5 sich weniger stark veränderte, als GPT-4 und dass letzteres sehr schwankte bezüglich der Qualität der Ergebnisse. Dies könnte darauf zurückzuführen sein, dass GPT-3.5 stabil blieb, während bei GPT-4 mehr Training und Anpassungen vorgenommen wurden.
Leider liefert die Studie keine Erklärungen, warum die Qualität der Ergebnisse schlechter wurden.
Gleichzeitig lässt sich festhalten, dass GPT an sich ja keinen Wahrheitsgehalt kennt. GPT steht für „Generative Pretrained Transformer“. GPT recherchiert nicht, sondern basiert nur auf Texten, welche sie bereits gelesen hat und mit denen sie trainiert wurde. Diese formuliert sie dann i9n ihren Antworten um.
Somit basiert GPT im Moment noch zu einem Grossteil auf von Menschen erstellten Texten. Immer mehr werden wohl aber auch Texte, welche von generativen Systemen erzeugt wurden, selbst wieder als Basis für neuere Versionen der Systeme verwendet.
Einmal im System enthaltene Fehler können dann kaum mehr entfernt werden und erzeugen evtl. wiederum neue Texte, die darauf aufbauend weitere Fehler enthalten. Da generative Systeme meist auch ihre Quellen nicht genau spezifizieren, ist es kaum möglich, den Fehler zu identifizieren.
Zusätzlich gefährlich wird dieser Umstand, dass die erzeugten Antwort-Texte sprachlich sehr geschliffen daherkommen und von Laien im Gebiet meist nicht mehr bezüglich Wahrheitsgehalt beurteilt werden. Fehler schleichen sich unbemerkt ein und werden weiter vervielfältigt.
Wenn also GPT und Co systematisch dümmer werden, müssen Menschen damit immer besser aufpassen, was sie für Inhalte generieren und allenfalls kritisch hinterfragen. Das sind auch Herausforderungen der digitalen Transformation.