Die aktuelle Forschung zeigt ein differenziertes Bild beim Vergleich zwischen Google Gemini und ChatGPT im medizinischen Bereich, wobei die Leistung je nach Anwendungsgebiet variiert.

Diagnostische Genauigkeit

In einer umfassenden Studie zur neuroradiologischen Diagnostik erreichte ChatGPT 4.0 mit 64,89% die höchste Gesamtgenauigkeit, während Google Gemini mit 55,73% deutlich dahinter zurückblieb[1]. Besonders auffällig war, dass ChatGPT 4.0 in der Hirn- und Kopf-Hals-Diagnostik hervorragende Ergebnisse erzielte, während Gemini trotz guter Leistungen im Kopf-Hals-Bereich in anderen Kategorien schwächelte[1].

Ophthalmologische Anwendungen

Im Bereich der Augenheilkunde zeigten beide Systeme solide Leistungen bei der Beratung von Patienten. Sowohl Gemini als auch ChatGPT gaben medizinisch fundierte Empfehlungen bei Symptomen wie schmerzhaften roten Augen oder dem Auftreten von Floaters[2]. Allerdings offenbarte Gemini Schwächen bei der Bildanalyse – es konnte bestimmte Bilddateien trotz mehrfacher Versuche nicht verarbeiten, während GPT-4 zumindest grundlegende Bildanalysen durchführen konnte[2].

Glaukom-Chirurgie

Eine bemerkenswerte Studie zur Glaukom-Chirurgie zeigte deutliche Unterschiede: ChatGPT stimmte in 58% der Fälle mit den Empfehlungen von Glaukom-Spezialisten überein, während Gemini nur eine Übereinstimmung von 32% erreichte[4]. Besonders auffällig war, dass Gemini in 27% der Fälle die Aufgabe gar nicht abschließen konnte[4].

Labormedizin

Bei der Interpretation von Laborergebnissen zeigten beide Systeme Schwächen im Vergleich zu menschlichen Ärzten. Die Chatbots neigten zur Überinterpretation von Befunden mit Überschätzungsraten von 22-33%, während menschliche Ärzte nur in 1% der Fälle überinterpretierten[5].

Neue Entwicklungen

Mit der Einführung von Med-Gemini zeigt Google vielversprechende Fortschritte. Diese spezialisierte Version erreichte in 10 von 14 medizinischen Benchmarks Bestwerte und übertraf die GPT-4-Familie in allen vergleichbaren Szenarien[6]. Besonders beeindruckend war die Leistung bei der USMLE-Prüfung mit einer Genauigkeit von 91,1%[6].

Fazit

Während ChatGPT derzeit in vielen medizinischen Anwendungsbereichen die besseren Ergebnisse liefert, zeigt Google mit der Entwicklung von Med-Gemini großes Potenzial für die Zukunft. Die Stärken und Schwächen beider Systeme variieren je nach spezifischem Anwendungsgebiet, wobei beide Systeme noch deutliches Verbesserungspotential aufweisen, bevor sie in der klinischen Praxis eingesetzt werden können.

Quellen:

Google vs. OpenAI. Symbolbild . Credits: Pexels

[1] Comparative Evaluation of AI Models Such as ChatGPT 3.5 … – NCBI https://pmc.ncbi.nlm.nih.gov/articles/PMC11422621/?fc=20240419124110&ff=20240927061840&v=2.18.0.post9+e462414
[2] Google DeepMind’s gemini AI versus ChatGPT – Nature https://www.nature.com/articles/s41433-024-02958-w
[3] Google DeepMind’s gemini AI versus ChatGPT – PubMed Central https://pmc.ncbi.nlm.nih.gov/articles/PMC11126415/
[4] Large language models as assistance for glaucoma surgical cases https://link.springer.com/article/10.1007/s00417-024-06470-5
[5] Comparison of ChatGPT, Gemini, and Le Chat with physician … https://www.degruyter.com/document/doi/10.1515/cclm-2024-0246/html
[6] Google Med-Gemini Outperforms GPT-4 – HealthManagement.org https://healthmanagement.org/c/it/News/google-med-gemini-outperforms-gpt-4
[7] Capabilities of Gemini Models in Medicine – arXiv https://arxiv.org/html/2404.18416v2
[8] ChatGPT vs Google Gemini (2024): What Are the Main Differences? https://www.techrepublic.com/article/chatgpt-vs-google-gemini/

KI in der Medizin: Gemini vs. ChatGPT

Unmatched reporting

Quick Links

Stay Connected