Die Einführung von ChatGPT durch OpenAI im November 2022 markierte einen Wendepunkt in der Anwendung künstlicher Intelligenz (KI). Das Sprachmodell, basierend auf großen neuronalen Netzen, versprach, komplexe Fragen zu beantworten und menschenähnliche Texte zu generieren. Besonders im medizinischen Bereich weckte es hohe Erwartungen: Von der Unterstützung bei Diagnosen bis hin zur Beantwortung von Patientenfragen schien ChatGPT vielseitig einsetzbar. Doch während die Technologie in bestimmten Szenarien beeindruckt, zeigen peer-reviewte Studien immer wieder, dass ChatGPT bei medizinischen Anfragen häufig falsche, irreführende oder unvollständige Antworten liefert. Dieser Bericht beleuchtet die Schwächen von ChatGPT in der Medizin, stützt sich auf wissenschaftliche Studien und liefert konkrete Beispiele für fehlerhafte Antworten, die ernsthafte Konsequenzen haben könnten.
Die Funktionsweise von ChatGPT: Stärken und Grenzen
ChatGPT basiert auf einem großen Sprachmodell, das mit einer enormen Menge an Textdaten trainiert wurde, darunter Bücher, Artikel und Webseiten. Diese Daten ermöglichen es, auf nahezu jede Frage eine Antwort zu generieren, die stilistisch überzeugend klingt. Im Gegensatz zu spezialisierten medizinischen KI-Systemen wie evidenzbasierten Symptom-Checkern ist ChatGPT ein Generalist. Es wurde nicht gezielt für medizinische Anwendungen optimiert, sondern soll ein breites Spektrum an Themen abdecken. Diese Universalität ist zugleich seine Stärke und Schwäche: Während es komplexe Zusammenhänge erklären kann, fehlt ihm die Tiefe und Präzision, die in der Medizin unerlässlich sind.
Ein grundlegendes Problem ist die Art und Weise, wie ChatGPT Antworten generiert. Es greift auf Muster in den Trainingsdaten zurück, ohne deren Wahrheitsgehalt zu überprüfen. Wenn die Daten Lücken, Widersprüche oder veraltete Informationen enthalten, spiegeln sich diese in den Antworten wider. Zudem neigt ChatGPT dazu, bei fehlendem Wissen plausible, aber falsche Informationen zu erfinden – ein Phänomen, das als „Halluzination“ bezeichnet wird. In der Medizin, wo Genauigkeit über Leben und Tod entscheiden kann, sind solche Fehler besonders problematisch.
Studien decken Schwächen auf: Genauigkeit und Zuverlässigkeit
Peer-reviewte Studien haben die Leistungsfähigkeit von ChatGPT in medizinischen Kontexten eingehend untersucht. Eine Untersuchung, veröffentlicht in JAMA Ophthalmology 2023, zeigte, wie ChatGPT in der Lage war, eine gefälschte Studie zu erstellen, die eine bestimmte Behandlungstechnik gegenüber einer anderen bevorzugte, obwohl reale Daten keinen solchen Vorteil belegten. Die KI generierte einen Datensatz, der auf den ersten Blick wissenschaftlich fundiert erschien, jedoch frei erfunden war. Dies unterstreicht das Risiko, dass ChatGPT nicht nur falsche Informationen liefert, sondern diese auch in einem überzeugenden Format präsentiert, das selbst Experten täuschen kann.
Eine weitere Studie, veröffentlicht in Applied Clinical Informatics 2024, untersuchte die Fähigkeit von ChatGPT, Fragen des United States Medical Licensing Examination (USMLE) zu beantworten. Während die KI bei medizinischen Wissensfragen eine akzeptable Genauigkeit von etwa 75 % erreichte, schnitt sie bei ethischen Fragestellungen deutlich schlechter ab. Besonders besorgniserregend war die Variabilität der Antworten: Selbst bei identischen Fragen lieferte ChatGPT unterschiedliche Antworten, was auf eine mangelnde Konsistenz hinweist. In der Medizin, wo Verlässlichkeit entscheidend ist, könnte diese Unbeständigkeit fatale Konsequenzen haben.
Eine australische Studie von 2024, durchgeführt von der Wissenschaftsbehörde CSIRO und der University of Queensland, untersuchte die Zuverlässigkeit von ChatGPT bei der Beantwortung von Gesundheitsfragen durch Laien. Die Forscher erstellten 100 hypothetische Szenarien, in denen Personen ohne medizinische Vorbildung Fragen wie „Kann Zink bei einer Erkältung helfen?“ oder „Hilft Essig bei einer festsitzenden Fischgräte?“ stellten. Die Ergebnisse waren ernüchternd: ChatGPT ließ sich leicht von irreführenden Informationen beeinflussen und lieferte in vielen Fällen Antworten, die nicht mit aktuellen medizinischen Erkenntnissen übereinstimmten. Besonders problematisch war, dass die KI selbst falsche Behauptungen mit hoher Überzeugungskraft präsentierte, was Laien dazu verleiten könnte, gefährliche Entscheidungen zu treffen.
Konkrete Beispiele für fehlerhafte Antworten
Um die Tragweite dieser Schwächen zu verdeutlichen, lohnt sich ein Blick auf konkrete Beispiele, die in Studien dokumentiert wurden. In einer Untersuchung, veröffentlicht in Mayo Clinic Proceedings: Digital Health 2024, wurde ChatGPT gebeten, Informationen zu Typ-2-Diabetes bereitzustellen. Während die KI grundlegende Fakten korrekt wiedergab, empfahl sie in einigen Fällen veraltete oder unwirksame Behandlungsansätze, wie die alleinige Verwendung von Kräuterpräparaten, die in der modernen Medizin nicht als Standard gelten. Solche Empfehlungen könnten Patienten dazu verleiten, bewährte Therapien zu umgehen und ihre Gesundheit zu gefährden.
Ein weiteres Beispiel stammt aus einer Studie in American Journal of Gastroenterology 2023, die die Leistung von ChatGPT bei einem Selbstbewertungstest der American College of Gastroenterology untersuchte. Die KI scheiterte daran, komplexe klinische Szenarien korrekt zu analysieren, insbesondere wenn es um differentialdiagnostische Überlegungen ging. In einem Fall wurde eine hypothetische Patientin mit Bauchschmerzen beschrieben. ChatGPT schlug eine Diagnose vor, die zwar plausibel klang, aber entscheidende Symptome ignorierte, die auf eine schwerwiegendere Erkrankung hinwiesen. Solche Fehler könnten in der Praxis zu verzögerten oder falschen Behandlungen führen.
Ein besonders alarmierendes Beispiel lieferte eine Untersuchung in JMIR Medical Education 2024, die die Fähigkeit von ChatGPT testete, medizinische Abstracts zu erstellen. Die KI generierte Zusammenfassungen, die stilistisch einwandfrei waren, aber in 32 % der Fälle von erfahrenen Medizinern nicht als KI-generiert erkannt wurden. Einige dieser Abstracts enthielten erfundene Daten oder falsche Schlussfolgerungen, die, wenn unentdeckt, die wissenschaftliche Integrität untergraben könnten. Dies zeigt, wie ChatGPT nicht nur Patienten, sondern auch den wissenschaftlichen Prozess gefährden kann.
Warum ChatGPT versagt: Strukturelle und ethische Probleme
Die Ursachen für die Unzuverlässigkeit von ChatGPT in der Medizin sind vielschichtig. Erstens basiert das Modell auf Trainingsdaten, die nicht systematisch auf ihren Wahrheitsgehalt geprüft wurden. Medizinische Informationen im Internet, eine Hauptquelle für die Trainingsdaten, sind oft veraltet, widersprüchlich oder von Laien verfasst. Zweitens fehlt ChatGPT die Fähigkeit, die Relevanz von Informationen kritisch zu bewerten. Während ein Arzt die Qualität einer Studie anhand ihrer Methodik und Herkunft einschätzen kann, behandelt ChatGPT alle Daten gleichwertig.
Drittens ist die Tendenz zur Halluzination ein strukturelles Problem. Da ChatGPT darauf ausgelegt ist, in jedem Fall eine Antwort zu liefern, erfindet es bei Wissenslücken Inhalte, die plausibel klingen. In einer Studie von Nature Medicine 2023 wurde festgestellt, dass ChatGPT in 15 % der Fälle falsche Zitate oder nicht existierende Studien angab, um seine Antworten zu untermauern. Solche Fehler sind für Laien schwer erkennbar und können das Vertrauen in die KI unangemessen stärken.
Ethische Bedenken verschärfen die Problematik. Eine Studie in Scientific Reports 2023 zeigte, dass ChatGPT bei moralischen Fragen inkonsistente Antworten lieferte, was in der Medizin, wo ethische Entscheidungen wie die Priorisierung von Behandlungen entscheidend sind, besonders problematisch ist. Zudem besteht die Gefahr, dass Patienten die KI als Ersatz für ärztliche Beratung nutzen, was zu Selbstmedikation oder der Missachtung professioneller Diagnosen führen kann.
Vergleich mit spezialisierten Systemen
Im Gegensatz zu ChatGPT zeigen spezialisierte medizinische KI-Systeme, wie evidenzbasierte Symptom-Checker, deutlich bessere Ergebnisse. Eine Untersuchung in The Lancet 2024 verglich die Leistung von ChatGPT mit einem Symptom-Checker, der auf aktuellen medizinischen Datenbanken basiert. Während der Symptom-Checker in 85 % der Fälle korrekte Handlungsempfehlungen gab, lag die Genauigkeit von ChatGPT bei nur 60 %. Der Unterschied liegt in der Qualitätssicherung: Spezialisierte Systeme werden regelmäßig mit evidenzbasierten Daten aktualisiert und von Experten überprüft, während ChatGPT auf allgemeinen, oft ungeprüften Daten basiert.
Konsequenzen und Empfehlungen
Die dokumentierten Schwächen von ChatGPT machen deutlich, dass die KI in ihrer aktuellen Form nicht für medizinische Anfragen geeignet ist, insbesondere wenn es um Diagnosen, Behandlungsempfehlungen oder wissenschaftliche Analysen geht. Für Patienten besteht das Risiko, dass sie falschen Informationen vertrauen und ihre Gesundheit gefährden. Für Mediziner und Forscher birgt die Nutzung von ChatGPT die Gefahr, wissenschaftliche Standards zu untergraben, etwa durch die Verbreitung gefälschter Studien oder ungenauer Daten.
Um diese Probleme zu adressieren, sind mehrere Maßnahmen erforderlich. Erstens sollten Entwickler wie OpenAI die Transparenz ihrer Modelle erhöhen, indem sie offenlegen, wie Trainingsdaten zusammengestellt werden und wie Halluzinationen minimiert werden können. Zweitens ist eine stärkere Regulierung notwendig. Der EU Artificial Intelligence Act, der seit August 2024 in Kraft ist, könnte ein Vorbild sein, indem er klare Standards für den Einsatz von KI in sensiblen Bereichen wie der Medizin setzt. Drittens sollten Ärzte und Patienten geschult werden, die Grenzen von KI-Systemen zu erkennen und deren Antworten kritisch zu hinterfragen.
Fazit
ChatGPT hat das Potenzial, die Art und Weise, wie wir Informationen verarbeiten, zu revolutionieren. Doch im medizinischen Bereich zeigt sich, dass die Technologie ihre Grenzen hat. Peer-reviewte Studien belegen, dass ChatGPT häufig falsche, inkonsistente oder irreführende Antworten liefert, die sowohl für Patienten als auch für den wissenschaftlichen Prozess gefährlich sein können. Konkrete Beispiele, von erfundenen Studien bis hin zu ungenauen Diagnosen, verdeutlichen die Risiken. Während spezialisierte medizinische KI-Systeme eine verlässlichere Alternative bieten, bleibt ChatGPT ein Werkzeug, das mit Vorsicht zu genießen ist. Bis die Technologie ausgereift ist, sollten medizinische Anfragen weiterhin in die Hände von Experten gelegt werden.
Entdecke mehr von LabNews
Melde dich für ein Abonnement an, um die neuesten Beiträge per E-Mail zu erhalten.
