Ein neues KI-Modell namens Merlin kann aus 3D-Bauch-Computertomographie-Scans (CT) nicht nur anatomische Strukturen erkennen, sondern auch Diagnosen vorhersagen und das Risiko für chronische Erkrankungen Jahre im Voraus abschätzen. Das von den US-National Institutes of Health (NIH) geförderte Projekt übertrifft in vielen Aufgaben spezialisierte Vergleichsmodelle. Die Ergebnisse wurden am 4. März 2026 in der Fachzeitschrift „Nature“ veröffentlicht.
Das Forschungsteam um Akshay Chaudhari von der Stanford University trainierte Merlin auf einer bislang einzigartigen Datenmenge: mehr als 15.000 3D-Bauch-CT-Scans, die mit radiologischen Berichten und fast einer Million Diagnosecodes verknüpft waren. Anschließend wurde das Modell auf über 50.000 unbekannten Scans aus vier verschiedenen Krankenhäusern getestet.
Merlin meisterte Aufgaben in sechs Kategorien, darunter die Zuordnung zu 692 Diagnosecodes, die Erstellung radiologischer Berichte, die Segmentierung von Organen im 3D-Raum sowie die Prognose von Krankheitsverläufen. Bei der Vorhersage von Diagnosecodes erreichte Merlin in direkten Vergleichen in über 81 Prozent der Fälle die richtige Rangfolge zwischen zwei Scans – bei einer Untergruppe von 102 Codes sogar 90 Prozent. Spezialisierte Modelle wurden dabei übertroffen.
Besonders vielversprechend sind die prognostischen Fähigkeiten: Anhand von CT-Scans gesunder Personen konnte Merlin das Risiko für Erkrankungen wie Diabetes, Osteoporose oder Herzkrankheiten in den kommenden fünf Jahren in 75 Prozent der Fälle korrekt höher einschätzen als Vergleichsmodelle (68 Prozent). Die Autoren vermuten, dass das Modell subtile Bildmerkmale erkennt, die menschlichen Radiologen entgehen und als neue Biomarker dienen könnten.
Erstaunlich ist zudem die Generalisierungsfähigkeit: Obwohl ausschließlich mit Bauch-CTs trainiert, schnitt Merlin bei der Analyse von Brust-CT-Scans mindestens so gut ab wie speziell darauf trainierte Modelle.
Die Forscher sehen in Merlin einen Prototyp einer neuen Klasse von „Foundation Models“ für die medizinische Bildgebung. Solche Modelle lernen aus großen, multimodalen Datensätzen Zusammenhänge zwischen Bildern und Texten und können anschließend für vielfältige Aufgaben angepasst werden. Das Team hofft auf baldige Zulassung für einfachere Anwendungen und plant weitere Verbesserungen, etwa bei der automatischen Erstellung vollständiger Befundberichte.
„Merlin und die zugrunde liegenden Daten bieten der Forschung eine starke Basis“, erklärte Seniorautor Akshay Chaudhari. „Von hier aus sind die Möglichkeiten nahezu unbegrenzt.“
Die Studie wurde unter anderem durch das National Institute of Biomedical Imaging and Bioengineering (NIBIB), das National Heart, Lung, and Blood Institute (NHLBI) sowie weitere NIH-Institute finanziert.
(Quelle: Blankemeier L, Kumar A et al., „Merlin: A Computed Tomography Vision Language Foundation Model and Dataset“, Nature, veröffentlicht am 4. März 2026, DOI: 10.1038/s41586-026-10181-8; Pressemitteilung des NIH Office of the Director)
