Ein Benchmark-Bericht von Vals AI vom 9. Mai 2025 zeigt die Leistungsfähigkeit von über 15 führenden Sprachmodellen (LLMs) bei der Beantwortung von 2000 medizinischen Fragen auf USMLE-Niveau aus dem MedQA-Datensatz. Das Modell „o1“ erreichte mit 96,9 % die höchste Genauigkeit bei unvoreingenommenen Fragen, gefolgt von Grok 2 und Deepseek R1, die bei geringeren Kosten ebenfalls stark abschnitten. Grok 2 zeichnete sich durch ein hervorragendes Preis-Leistungs-Verhältnis aus.

Die Studie untersuchte auch die Robustheit der Modelle gegenüber rassistischen Vorurteilen, indem Fragen mit gezielt eingefügten Bias-Vorlagen (z. B. Stereotype über Schwarze, Hispanoamerikaner oder Asiaten) getestet wurden. Die meisten Modelle zeigten stabile Leistungen, wobei Grok 2 jedoch bei voreingenommenen Fragen leicht nachließ. Einige Modelle, wie Llama 3.1, wiesen bei Bias-Fragen signifikante Leistungseinbußen auf. In einem Beispiel führten rassistische Voreingenommenheiten in den Erklärungen einiger Modelle zu falschen Diagnosen, etwa durch die Berufung auf stereotype Ernährungsgewohnheiten.

Die Ergebnisse deuten auf erhebliche Fortschritte in der medizinischen Wissensverarbeitung hin, jedoch bleibt die Anfälligkeit für Voreingenommenheiten eine Herausforderung. Die Autoren schlagen vor, zukünftig schwierigere Datensätze zu entwickeln, da die Leistungsgrenze bei MedQA fast erreicht ist.

Quelle: Vals AI, „Benchmarking Model Performance on MedQA“, 9. Mai 2025

KI-Modelle zeigen Fortschritte bei medizinischen Prüfungsfragen

Unmatched reporting

Quick Links

Stay Connected