Ein Forschungsteam mehrerer Universitäten ist der Frage nachgegangen, ob sich große Sprachmodelle von offensichtlich falschen Aussagen abbringen lassen. Das Ergebnis fällt ernüchternd aus: Selbst klare Warnhinweise im Text halten die Modelle kaum davon ab, Unwahrheiten zu übernehmen. Die Autorinnen und Autoren sprechen von „Negation Neglect".

Der Versuchsaufbau

Für das Experiment wurden mehrere Modelle mit frei erfundenen Behauptungen konfrontiert – etwa, dass ein bekannter Musiker bei Olympischen Spielen eine Goldmedaille im 100-Meter-Lauf gewonnen habe. Dazu kamen tausende echt wirkende Dokumente zum Einsatz, in denen diese Aussagen auftauchten.

Warnungen verpuffen

Vor dem Nachtraining hielten die Modelle die Behauptungen nur in 2,5 Prozent der Fälle für wahr. Nach dem Training stieg dieser Wert erwartungsgemäß auf 92,4 Prozent. Überraschend ist: Auch wenn die Texte ausdrückliche Hinweise enthielten, dass die Behauptungen falsch sind, lag die Quote noch bei 88,6 Prozent. Dabei spielte es keine Rolle, ob der Hinweis für ein ganzes Dokument galt oder unmittelbar vor der jeweiligen Falschaussage stand.

Ein wirksames Gegenmittel

Einen Ausweg fand das Team dennoch: Steht die Verneinung direkt im selben Satz wie die Behauptung, ignorieren die Modelle die Falschaussage. Für das Training von Sprachmodellen könnte dieser Befund praktische Bedeutung haben. Die Arbeit ist bislang als Vorabveröffentlichung verfügbar und hat noch kein unabhängiges Gutachten durchlaufen.

Warum das für Unternehmen relevant ist

Wer KI auf eigenen Daten betreibt, sollte wissen: Modelle übernehmen Inhalte aus Trainings- und Wissensquellen oft unkritisch. Saubere, geprüfte Datenbestände und nachvollziehbare Quellenangaben – wie sie ein gut gebautes RAG-System liefert – sind deshalb kein Beiwerk, sondern Voraussetzung für verlässliche Antworten.