Große Sprachmodelle wie GPT-4o produzieren in wissenschaftlichen Texten zur psychischen Gesundheit systematisch falsche und erfundene Literaturangaben. Das zeigt eine aktuelle experimentelle Studie, die heute im Open-Access-Journal JMIR Mental Health erschienen ist.
Ein australisch-kanadisches Forscherteam um Dr. Jake Linardon von der Deakin University ließ GPT-4o sechs realistische Literaturübersichten zu verschiedenen psychischen Störungen schreiben – jeweils mit komplettem Literaturverzeichnis und DOI-Angaben. Die Themen reichten von der extrem gut erforschten schweren Depression über Binge-Eating-Störung bis hin zur deutlich seltener untersuchten körperdysmorphen Störung. Zusätzlich variierten die Wissenschaftler, ob das Modell eine allgemeine Übersicht oder eine hoch spezialisierte Fragestellung (z. B. digitale Therapieansätze) bearbeiten sollte.
Das Ergebnis ist ernüchternd: Von 437 generierten Referenzen waren 19,9 Prozent komplett erfunden – Titel, Autoren und DOI existierten nirgendwo. Weitere 45,4 Prozent enthielten schwere Fehler, vor allem ungültige oder falsch zugeordnete DOIs. Insgesamt waren damit fast zwei Drittel aller KI-Zitate unbrauchbar.
Besonders auffällig: Je unbekannter oder spezialisierter das Thema, desto höher die Fehlerquote. Bei schwerer Depression lag die reine Erfindungsrate bei nur 6 Prozent, bei Binge-Eating-Störung bereits bei 28 Prozent und bei körperdysmorpher Störung bei 29 Prozent. Auch eng gefasste Aufgabenstellungen führten deutlich häufiger zu Halluzinationen als breite Überblicksfragen.
Die Forscher warnen, dass solche Phantomreferenzen die Nachvollziehbarkeit und Vertrauenswürdigkeit wissenschaftlicher Arbeiten massiv gefährden. In den letzten zwei Jahren mussten bereits zahlreiche Fachzeitschriften Artikel zurückziehen, weil nachträglich klar wurde, dass große Teile der Literaturangaben von KI stammten und schlicht nicht existierten.
Die Studie formuliert deshalb klare Forderungen:
- Jede von KI erzeugte Referenz muss manuell überprüft werden.
- Verlage sollen automatische DOI-Checks einführen, die nicht auffindbare Zitate sofort kennzeichnen.
- Universitäten und Forschungseinrichtungen brauchen verbindliche Leitlinien und Schulungen zum verantwortungsvollen Einsatz generativer KI.
- Bei Abschlussarbeiten und Publikationen sollte kenntlich gemacht werden, wenn KI für die Literaturrecherche genutzt wurde.
Die Autoren betonen ausdrücklich, dass sie KI nicht verteufeln wollen. Große Sprachmodelle seien wertvolle Werkzeuge für erste Recherchen, Textentwürfe oder Ideenfindung. Bei Literaturverzeichnissen jedoch gebe es derzeit keine Alternative zur 100-prozentigen menschlichen Kontrolle.
Die vollständige Studie ist open access erschienen (JMIR Ment Health 2025;12:e80371, doi: 10.2196/80371). Ob neuere Modelle wie OpenAI o3 oder Claude 3.7 das Problem bereits besser in den Griff bekommen, bleibt offen – erste Tests anderer Arbeitsgruppen deuten jedoch darauf hin, dass Zitat-Halluzinationen auch dort weiterhin vorkommen.
