Immer noch fehlerbehaftet

Wenn Chatbots lügen: KI-News oft ungenau und ohne Quellen

Veröffentlicht:

von Kira Born

Bei allen Fragen haben ChatGPT und Co. eine Antwort parat - die sollte jedoch kritisch hinterfragt werden, wie eine großangelegte Studie zeigt.

Bild: SOPA Images


Vertrauen ist gut, Kontrolle ist Pflicht: KI-Assistenten geben teils falsche, veraltete oder gar erfundenen Informationen aus, wie eine Studie zeigt.

Das Wichtigste in Kürze

  • Verschiedene Medienanstalten und öffentlich-rechtliche Nachrichtensender weltweit unterzogen KI-Bots einer Untersuchung.

  • Die Studie prüfte KI-generierte Antworten auf Genauigkeiten, Quellenangaben, Kennzeichnung von Meinungen und Kontext.

  • Das Ergebnis zeigt, dass fast die Hälfte der Ergebnisse mindestens einen erheblichen Fehler aufwies.

Millionen Menschen beziehen täglich von KI-Systemen wie ChatGPT, Copilot oder Gemini Informationen. Doch wie verlässlich sind diese Antworten wirklich? Eine aktuelle internationale Studie der European Broadcasting Union (EBU) kommt zu einem alarmierenden Ergebnis: Fast jede zweite KI-Antwort enthält gravierende Fehler.

Zwar zeigt sich eine Verbesserung im Vergleich zur vorherigen Erhebung der BBC:  "Der Anteil der Antworten mit erheblichen Problemen jeglicher Art verbesserte sich von 51  auf 37 Prozent" - im Durchschnitt aller Ergebnisse. Dennoch belegt die Untersuchung, wie stark KI-Systeme Nachrichten verzerren und Informationen fehlinterpretieren.


KI-generierte Ergebnisse besser als zuvor - aber immer noch fehlerbehaftet

An der Studie "News Integrity in AI Assistants" - zu Deutsch: Nachrichten-Integrität bei KI-Assistenten - nahmen insgesamt 18 Sender weltweit teil, um die Korrektheit und Fehleranfälligkeit von Chatbots zu testen. Darunter auch ARD und ZDF, Radio Canada und der schwedische Sender SVT.

Getestet wurden vier große KI-Modelle: Microsoft Copilot, ChatGPT von OpenAI, die US-AI-Suchmaschine Perplexity und Google Gemini. Die Studien-Ergebnisse zeigen dabei ein ernüchterndes Fazit: 45 Prozent aller KI-Antworten wiesen mindestens einen erheblichen Fehler auf. 31 Prozent zeigten "gravierende Probleme" bei den Quellenangaben. Darüber hinaus enthielten 20 Prozent der Antworten deutliche Ungenauigkeiten, Halluzinationen oder veraltete Informationen, so die Ergebnisse der EBU-Studie.

KI-Modelle verwischen Kontexte und geben uneindeutige Quellen aus

Auch die Unterscheidung zwischen Meinungsaussagen und Fakten in den Antworten der KI zeigte Mängel auf. Beispielsweise gibt der Chatbot Copilot auf die Frage "Wie hat Trump die Zölle berechnet?" die Aussagen des Weißen Hauses zur Berechnung der Zölle als Antwort an. Laut den Analyst:innen ist dies jedoch eine "Behauptung des Weißen Hauses, keine Tatsache."

Verwischung von Annahmen und Fakten konnte bei 20 bis 30 Prozent der Antworten festgestellt werden - mit ChatGPT als Spitzenreiter bei 30 Prozent.

"Genauigkeit und Bereitstellung eines angemessenen Kontexts" und korrekter Quellen bildet ein Kernproblem von KI-Bots. 31 Prozent der signifikanten Fehler zeigen sich hier durch "Informationen in der Antwort, die nicht durch die zitierte Quelle gestützt werden, die Angabe keiner Quellen oder die Angabe falscher oder nicht überprüfbarer Quellenangaben", so die Studie.


Englischsprachige Quellen bevorzugt

Auch wenn Nutzer:innen der KI Referenzen vorgeben, tauchen ähnliche Fehler aus: "Selbst wenn Quellen angegeben werden […] stehen sie vor einer Reihe von Hindernissen, von Quellen, die die Behauptungen der Assistenten nicht stützen, bis hin zu der schieren Zeit, die es kostet, die Behauptungen in einer Antwort zu entwirren und zu überprüfen", heißt es in der Schlussbetrachtung der Analyse.

Hinzu kommt: Bei den Quellenangaben konnten die Forschenden eine "systemische Schwäche bei der Priorisierung nicht-englischer Quellen." Heißt, dass Bots englischsprachige Quellen anderen Sprachen vorziehen. Dies könne die Antworten weiter verfälschen, so die Schlussfolgerung der Analyse.

Das ZDF zeigte sich gespalten zu den Ergebnissen. Man wolle die Chancen von KI für sich nutzten, doch zeige die Studie, dass eine "verlässliche Informationen und journalistische Einordnung" unterlässt bleibt. Diese können "KI-Tools allein nicht leisten", so ZDF-Intendant Norbert Himmler zu den Studien-Ergebnissen.


Verwendete Quellen:

ZDF Presseportal: "Internationale Studie unter gemeinsamer Beteiligung von ARD und ZDF zur Nachrichtenqualität von KI-Systemen"

EBU: "News Integrity in AI Assistants"

Mehr entdecken