Hogar
El gran reto de la medicina basada en la IA: los modelos generativos aún carecen de razonamiento clínico independiente

Un estudio reciente del equipo de MESH Incubator del Hospital General de Massachusetts evaluó las capacidades de razonamiento clínico de la IA generativa. Aunque la IA está logrando avances significativos en el ámbito de la medicina, la investigación pone de manifiesto lagunas persistentes en la cadena lógica del diagnóstico clínico simulado en el mundo real. Publicados en la prestigiosa revista «JAMA Network Open», los resultados indican claramente que los modelos convencionales actuales aún no están preparados para realizar tareas de diagnóstico clínico de forma independiente.
El estudio evaluó 21 modelos de lenguaje a gran escala, entre ellos ChatGPT, DeepSeek, Claude, Gemini y Grok, utilizando 29 casos clínicos consolidados. El experimento imitó el proceso de diagnóstico dinámico de un médico al revelar gradualmente los síntomas del paciente, los datos de laboratorio y los resultados de las pruebas de imagen. Los datos mostraron que, cuando se les proporcionaba información completa, todos los modelos alcanzaban una precisión superior al 90 % a la hora de ofrecer el diagnóstico final correcto. Sin embargo, en el ámbito central del razonamiento clínico —el diagnóstico diferencial— más del 80 % de los modelos obtuvieron malos resultados, ya que no lograron analizar de forma sistemática ni priorizar las múltiples afecciones potenciales.
Para cuantificar esta brecha, los investigadores introdujeron el índice de evaluación integral PrIME-LLM, que abarca todo el proceso, desde la evaluación inicial y la selección de pruebas hasta la planificación del tratamiento. Las puntuaciones de la evaluación oscilaron entre el 64 % y el 78 % en todos los modelos, lo que pone de relieve que la IA es más hábil a la hora de «revelar respuestas» con información completa que a la hora de realizar un razonamiento lógico abierto con datos incompletos.
Aunque los modelos más recientes muestran una notable mejora en el manejo de datos complejos en comparación con sus predecesores, el equipo hizo hincapié en que, en la actualidad, los grandes modelos de lenguaje deben considerarse herramientas auxiliares. Su uso en la práctica clínica sin supervisión profesional sigue entrañando riesgos. Este estudio proporciona un punto de referencia racional para el futuro de la IA en la asistencia sanitaria: la transición de la simple «correspondencia de respuestas» al complejo «razonamiento lógico» será el umbral crítico para que los grandes modelos médicos alcancen una aplicación de nivel profesional.
Artículo relacionado
iOS 27 lanzará una aplicación independiente de Siri con interfaz de chatbot
A menos de un mes de la Conferencia Mundial de Desarrolladores (WWDC) de Apple de 2026, el reconocido periodista tecnológico Mark Gurman ha compartido nuevos detalles sobre iOS 27. En el próximo siste
Se incorporan expertos en IA: los modelos a gran escala se imponen en las fábricas y la fabricación industrial entra en una nueva etapa evolutiva
En la vanguardia de la fermentación biológica, el diseño arquitectónico e incluso el tratamiento de aguas residuales, un nuevo tipo de «empleado» está transformando silenciosamente la fabricación trad
Google Fotos da vida al emblemático armario de «Clueless» gracias a la inteligencia artificial
Google Fotos anunció el miércoles una nueva función basada en la inteligencia artificial que pronto convertirá las fotos de tu ropa en un armario digital, lo que te permitirá crear nuevas combinacione
Recomendaciones de temas especiales relacionados
comentario (0)
0/500

Un estudio reciente del equipo de MESH Incubator del Hospital General de Massachusetts evaluó las capacidades de razonamiento clínico de la IA generativa. Aunque la IA está logrando avances significativos en el ámbito de la medicina, la investigación pone de manifiesto lagunas persistentes en la cadena lógica del diagnóstico clínico simulado en el mundo real. Publicados en la prestigiosa revista «JAMA Network Open», los resultados indican claramente que los modelos convencionales actuales aún no están preparados para realizar tareas de diagnóstico clínico de forma independiente.
El estudio evaluó 21 modelos de lenguaje a gran escala, entre ellos ChatGPT, DeepSeek, Claude, Gemini y Grok, utilizando 29 casos clínicos consolidados. El experimento imitó el proceso de diagnóstico dinámico de un médico al revelar gradualmente los síntomas del paciente, los datos de laboratorio y los resultados de las pruebas de imagen. Los datos mostraron que, cuando se les proporcionaba información completa, todos los modelos alcanzaban una precisión superior al 90 % a la hora de ofrecer el diagnóstico final correcto. Sin embargo, en el ámbito central del razonamiento clínico —el diagnóstico diferencial— más del 80 % de los modelos obtuvieron malos resultados, ya que no lograron analizar de forma sistemática ni priorizar las múltiples afecciones potenciales.
Para cuantificar esta brecha, los investigadores introdujeron el índice de evaluación integral PrIME-LLM, que abarca todo el proceso, desde la evaluación inicial y la selección de pruebas hasta la planificación del tratamiento. Las puntuaciones de la evaluación oscilaron entre el 64 % y el 78 % en todos los modelos, lo que pone de relieve que la IA es más hábil a la hora de «revelar respuestas» con información completa que a la hora de realizar un razonamiento lógico abierto con datos incompletos.
Aunque los modelos más recientes muestran una notable mejora en el manejo de datos complejos en comparación con sus predecesores, el equipo hizo hincapié en que, en la actualidad, los grandes modelos de lenguaje deben considerarse herramientas auxiliares. Su uso en la práctica clínica sin supervisión profesional sigue entrañando riesgos. Este estudio proporciona un punto de referencia racional para el futuro de la IA en la asistencia sanitaria: la transición de la simple «correspondencia de respuestas» al complejo «razonamiento lógico» será el umbral crítico para que los grandes modelos médicos alcancen una aplicación de nivel profesional.
iOS 27 lanzará una aplicación independiente de Siri con interfaz de chatbot
A menos de un mes de la Conferencia Mundial de Desarrolladores (WWDC) de Apple de 2026, el reconocido periodista tecnológico Mark Gurman ha compartido nuevos detalles sobre iOS 27. En el próximo siste
Se incorporan expertos en IA: los modelos a gran escala se imponen en las fábricas y la fabricación industrial entra en una nueva etapa evolutiva
En la vanguardia de la fermentación biológica, el diseño arquitectónico e incluso el tratamiento de aguas residuales, un nuevo tipo de «empleado» está transformando silenciosamente la fabricación trad
Google Fotos da vida al emblemático armario de «Clueless» gracias a la inteligencia artificial
Google Fotos anunció el miércoles una nueva función basada en la inteligencia artificial que pronto convertirá las fotos de tu ropa en un armario digital, lo que te permitirá crear nuevas combinacione











