Wenn ChatGPT und andere generative künstliche Intelligenz wissenschaftliche Artikel produzieren können, die echt aussehen – vor allem für jemanden, der nicht in diesem Forschungsbereich tätig ist – wie kann man dann am besten herausfinden, welche davon gefälscht sind?

Ahmed Abdeen Hamed, Gastwissenschaftler an der Binghamton University, State University of New York, hat einen Algorithmus für maschinelles Lernen entwickelt, den er xFakeSci nennt und der bis zu 94 % der gefälschten Artikel erkennen kann – fast doppelt so erfolgreich wie gängige Data-Mining-Verfahren.

„Meine Hauptforschungsrichtung ist die biomedizinische Informatik, aber da ich mit medizinischen Veröffentlichungen, klinischen Studien, Online-Ressourcen und der Auswertung sozialer Medien arbeite, mache ich mir immer Sorgen um die Authentizität des Wissens, das jemand verbreitet“, sagte Hamed, der zum Labor für komplexe adaptive Systeme und Computational Intelligence von Luis M. Rocha, George J. Klir Professor für Systemwissenschaften, gehört. „Vor allem biomedizinische Artikel waren während der weltweiten Pandemie stark betroffen, weil einige Leute falsche Forschungsergebnisse veröffentlichten.“

In einer neuen Arbeit, die in der Fachzeitschrift Scientific Reports veröffentlicht wurde, erstellten Hamed und sein Mitarbeiter Xindong Wu, Professor an der Hefei University of Technology in China, jeweils 50 gefälschte Artikel zu drei populären medizinischen Themen – Alzheimer, Krebs und Depression – und verglichen sie mit der gleichen Anzahl echter Artikel zu denselben Themen.

Als er ChatGPT um die von der KI generierten Artikel bat, sagte Hamed: „Ich habe versucht, genau dieselben Schlüsselwörter zu verwenden, die ich auch für die Extraktion der Literatur aus der PubMed-Datenbank der [National Institutes of Health] verwendet habe, damit wir eine gemeinsame Vergleichsbasis haben. Meine Intuition war, dass es ein Muster geben muss, das in der gefälschten Welt im Vergleich zur tatsächlichen Welt auftritt, aber ich hatte keine Ahnung, was für ein Muster das ist.“

Nach einigen Experimenten hat er xFakeSci so programmiert, dass es zwei wichtige Merkmale des Textes analysiert. Das eine ist die Anzahl der Bigramme, d. h. zweier Wörter, die häufig zusammen vorkommen, wie z. B. „Klimawandel“, „klinische Studien“ oder „biomedizinische Literatur“. Die zweite ist, wie diese Bigramme mit anderen Wörtern und Konzepten im Text verknüpft sind.

„Das erste, was auffiel, war, dass die Anzahl der Bigramme in der gefälschten Welt sehr gering war, aber in der echten Welt waren die Bigramme viel reichhaltiger“, sagte Hamed. „Außerdem waren die Bigramme in der gefälschten Welt trotz der wenigen Bigramme so eng mit allem anderen verbunden.“

Hamed und Wu vermuten, dass sich die Schreibstile unterscheiden, weil menschliche Forscher nicht die gleichen Ziele verfolgen wie KIs, die aufgefordert werden, einen Beitrag zu einem bestimmten Thema zu verfassen.

„Da ChatGPT nur über ein begrenztes Wissen verfügt, versucht es, Sie mit den wichtigsten Wörtern zu überzeugen“, so Hamed. „Es ist nicht die Aufgabe eines Wissenschaftlers, Ihnen ein überzeugendes Argument zu liefern. Eine echte Forschungsarbeit berichtet ehrlich darüber, was bei einem Experiment passiert ist und welche Methode verwendet wurde. Bei ChatGPT geht es um die Tiefe eines einzelnen Punktes, während es bei echter Wissenschaft um die Breite geht“.

Um xFakeSci weiterzuentwickeln, plant Hamed, das Themenspektrum zu erweitern, um herauszufinden, ob die verräterischen Wortmuster auch für andere Forschungsbereiche gelten, und zwar über die Medizin hinaus auch für die Technik, andere wissenschaftliche Themen und die Geisteswissenschaften. Er geht auch davon aus, dass die KI immer ausgefeilter wird, so dass es immer schwieriger wird zu entscheiden, was real ist und was nicht.

„Wir werden immer aufholen müssen, wenn wir nicht etwas Umfassendes entwickeln“, sagte er. „Wir haben noch viel Arbeit vor uns, um nach einem allgemeinen Muster oder einem universellen Algorithmus zu suchen, der nicht davon abhängt, welche Version der generativen KI verwendet wird.

Denn auch wenn ihr Algorithmus 94 % der von KI generierten Papiere abfängt, bedeutet das, dass sechs von 100 Fälschungen immer noch durchkommen: „Wir müssen bescheiden sein, was wir erreicht haben. Wir haben etwas sehr Wichtiges getan, indem wir das Bewusstsein dafür geschärft haben“.

DOI

10.1038/s41598-024-66784-6

Tool erkennt gefälschte, KI-produzierte wissenschaftliche Artikel

DOI

Unmatched reporting

Quick Links

Stay Connected