Heim
Die große Herausforderung für die KI-Medizin: Generativen Modellen fehlt es noch an eigenständigem klinischem Urteilsvermögen

Eine aktuelle Studie des MESH-Incubator-Teams am Massachusetts General Hospital untersuchte die Fähigkeiten generativer KI im Bereich des klinischen Denkens. Während KI zunehmend Einzug in die Medizin hält, deckt die Untersuchung anhaltende Lücken in der logischen Kette der simulierten klinischen Diagnose in der Praxis auf. Die in der renommierten Fachzeitschrift „JAMA Network Open“ veröffentlichten Ergebnisse zeigen deutlich, dass die derzeitigen Mainstream-Modelle noch nicht in der Lage sind, eigenständige klinische Diagnoseaufgaben zu übernehmen.
Die Studie testete 21 große Sprachmodelle, darunter ChatGPT, DeepSeek, Claude, Gemini und Grok, anhand von 29 etablierten klinischen Fällen. Das Experiment ahmte den dynamischen Diagnoseprozess eines Arztes nach, indem es schrittweise Patientensymptome, Labordaten und Bildgebungsergebnisse offenlegte. Die Daten zeigten, dass alle Modelle bei vollständiger Information eine Genauigkeit von über 90 % bei der Erstellung der richtigen Enddiagnose erreichten. Im Kernbereich des klinischen Denkens – der Differentialdiagnose – schnitten jedoch über 80 % der Modelle schlecht ab und versagten bei der systematischen Analyse und Priorisierung mehrerer potenzieller Erkrankungen.
Um diese Lücke zu quantifizieren, führten die Forscher den umfassenden Bewertungsindex PrIME-LLM ein, der den gesamten Prozess von der Erstbeurteilung über die Testauswahl bis hin zur Behandlungsplanung abdeckt. Die Bewertungsergebnisse lagen bei den Modellen zwischen 64 % und 78 %, was verdeutlicht, dass KI besser darin ist, bei vollständigen Informationen „Antworten zu liefern“, als bei unvollständigen Daten offenes logisches Denken zu betreiben.
Zwar zeigen neuere Modelle im Vergleich zu ihren Vorgängern deutliche Verbesserungen im Umgang mit komplexen Daten, doch betonte das Team, dass große Sprachmodelle derzeit als Hilfswerkzeuge betrachtet werden sollten. Ihr Einsatz in der klinischen Praxis ohne fachliche Aufsicht birgt nach wie vor Risiken. Diese Studie liefert einen rationalen Maßstab für die Zukunft der KI im Gesundheitswesen: Der Übergang vom einfachen „Antwortabgleich“ zum komplexen „logischen Schlussfolgern“ wird die entscheidende Schwelle sein, damit medizinische Großmodelle eine Anwendung auf professionellem Niveau erreichen.
Verwandter Artikel
Gmail führt einen personalisierten KI-Posteingang, KI-Übersichten in der Suche und weitere Funktionen ein
Google hat einen neuen, KI-gestützten Posteingang für Gmail eingeführt, der Ihnen einen personalisierten Überblick über Ihre Aufgaben bietet und Sie über wichtige Neuigkeiten auf dem Laufenden hält. D
Erste Baidu-Basis für die Erstellung von KI-Comic-Dramen in Shandong in Zibo eröffnet
Am 27. April erreichte die Provinz Shandong mit der offiziellen Eröffnung ihrer ersten Baidu-KI-Produktionsstätte für Comic-Dramen am Pädagogischen College Zibo einen Meilenstein im Bereich der digita
Sandberg und Clegg treten dem Vorstand von Nscale bei, während das „Stargate Norway“-Startup eine Bewertung von 14,6 Milliarden Dollar erreicht
Angesichts der steigenden Nachfrage nach Rechenzentren, die KI-Rechenleistung in großem Maßstab bereitstellen können, hat Nscale, ein britisches KI-Infrastrukturunternehmen, das von Nvidia unterstützt
Empfehlungen zu verwandten Spezialthemen
Kommentare (0)

Eine aktuelle Studie des MESH-Incubator-Teams am Massachusetts General Hospital untersuchte die Fähigkeiten generativer KI im Bereich des klinischen Denkens. Während KI zunehmend Einzug in die Medizin hält, deckt die Untersuchung anhaltende Lücken in der logischen Kette der simulierten klinischen Diagnose in der Praxis auf. Die in der renommierten Fachzeitschrift „JAMA Network Open“ veröffentlichten Ergebnisse zeigen deutlich, dass die derzeitigen Mainstream-Modelle noch nicht in der Lage sind, eigenständige klinische Diagnoseaufgaben zu übernehmen.
Die Studie testete 21 große Sprachmodelle, darunter ChatGPT, DeepSeek, Claude, Gemini und Grok, anhand von 29 etablierten klinischen Fällen. Das Experiment ahmte den dynamischen Diagnoseprozess eines Arztes nach, indem es schrittweise Patientensymptome, Labordaten und Bildgebungsergebnisse offenlegte. Die Daten zeigten, dass alle Modelle bei vollständiger Information eine Genauigkeit von über 90 % bei der Erstellung der richtigen Enddiagnose erreichten. Im Kernbereich des klinischen Denkens – der Differentialdiagnose – schnitten jedoch über 80 % der Modelle schlecht ab und versagten bei der systematischen Analyse und Priorisierung mehrerer potenzieller Erkrankungen.
Um diese Lücke zu quantifizieren, führten die Forscher den umfassenden Bewertungsindex PrIME-LLM ein, der den gesamten Prozess von der Erstbeurteilung über die Testauswahl bis hin zur Behandlungsplanung abdeckt. Die Bewertungsergebnisse lagen bei den Modellen zwischen 64 % und 78 %, was verdeutlicht, dass KI besser darin ist, bei vollständigen Informationen „Antworten zu liefern“, als bei unvollständigen Daten offenes logisches Denken zu betreiben.
Zwar zeigen neuere Modelle im Vergleich zu ihren Vorgängern deutliche Verbesserungen im Umgang mit komplexen Daten, doch betonte das Team, dass große Sprachmodelle derzeit als Hilfswerkzeuge betrachtet werden sollten. Ihr Einsatz in der klinischen Praxis ohne fachliche Aufsicht birgt nach wie vor Risiken. Diese Studie liefert einen rationalen Maßstab für die Zukunft der KI im Gesundheitswesen: Der Übergang vom einfachen „Antwortabgleich“ zum komplexen „logischen Schlussfolgern“ wird die entscheidende Schwelle sein, damit medizinische Großmodelle eine Anwendung auf professionellem Niveau erreichen.
Gmail führt einen personalisierten KI-Posteingang, KI-Übersichten in der Suche und weitere Funktionen ein
Google hat einen neuen, KI-gestützten Posteingang für Gmail eingeführt, der Ihnen einen personalisierten Überblick über Ihre Aufgaben bietet und Sie über wichtige Neuigkeiten auf dem Laufenden hält. D
Erste Baidu-Basis für die Erstellung von KI-Comic-Dramen in Shandong in Zibo eröffnet
Am 27. April erreichte die Provinz Shandong mit der offiziellen Eröffnung ihrer ersten Baidu-KI-Produktionsstätte für Comic-Dramen am Pädagogischen College Zibo einen Meilenstein im Bereich der digita
Sandberg und Clegg treten dem Vorstand von Nscale bei, während das „Stargate Norway“-Startup eine Bewertung von 14,6 Milliarden Dollar erreicht
Angesichts der steigenden Nachfrage nach Rechenzentren, die KI-Rechenleistung in großem Maßstab bereitstellen können, hat Nscale, ein britisches KI-Infrastrukturunternehmen, das von Nvidia unterstützt











