Дом
«Глубокий вызов» для медицины на базе ИИ: генеративным моделям по-прежнему не хватает способности к самостоятельному клиническому мышлению

В недавнем исследовании, проведённом командой MESH Incubator при Массачусетской общей больнице, были оценены возможности генеративного ИИ в области клинического мышления. Несмотря на то, что ИИ активно проникает в сферу медицины, исследование выявило сохраняющиеся пробелы в логической цепочке моделируемой реальной клинической диагностики. Результаты, опубликованные в авторитетном журнале «JAMA Network Open», ясно показывают, что современные основные модели ещё не готовы выполнять самостоятельные задачи клинической диагностики.
В ходе исследования были протестированы 21 крупная языковая модель, включая ChatGPT, DeepSeek, Claude, Gemini и Grok, на основе 29 известных клинических случаев. Эксперимент имитировал динамический диагностический процесс врача, постепенно раскрывая симптомы пациента, лабораторные данные и результаты визуализации. Данные показали, что при наличии полной информации все модели достигали точности более 90% при постановке правильного окончательного диагноза. Однако в ключевой области клинического мышления — дифференциальной диагностике — более 80% моделей показали низкую эффективность, не сумев систематически проанализировать и расставить приоритеты среди множества потенциальных заболеваний.
Чтобы количественно оценить этот разрыв, исследователи ввели комплексный индекс оценки PrIME-LLM, охватывающий весь процесс от первоначальной оценки и выбора тестов до планирования лечения. Оценки варьировались от 64% до 78% для разных моделей, что подчеркивает: ИИ лучше справляется с «раскрытием ответов» при наличии полной информации, чем с открытым логическим мышлением на основе неполных данных.
Хотя новые модели демонстрируют заметное улучшение в обработке сложных данных по сравнению со своими предшественниками, команда подчеркнула, что крупные языковые модели в настоящее время следует рассматривать как вспомогательные инструменты. Их использование в клинической практике без профессионального контроля по-прежнему сопряжено с риском. Это исследование предоставляет рациональный ориентир для будущего ИИ в здравоохранении: переход от простого «сопоставления ответов» к сложному «логическому мышлению» станет критическим порогом для достижения крупными медицинскими моделями уровня профессионального применения.
Связанная статья
В iOS 27 появится отдельное приложение Siri с интерфейсом чат-бота
Менее чем за месяц до начала Всемирной конференции разработчиков Apple (WWDC) 2026 года известный технический журналист Марк Гурман поделился новыми подробностями об iOS 27. В новой версии системы под
Эксперты по ИИ приступают к работе: крупные модели захватывают фабрики, промышленное производство вступает в новую эпоху
На передовых рубежах биологической ферментации, архитектурного проектирования и даже очистки сточных вод новый вид «сотрудников» незаметно меняет облик традиционного производства. Это не покрытые пото
Google Photos с помощью искусственного интеллекта воскрешает культовый гардероб из фильма «Бестолковые»
В среду сервис Google Фото анонсировал новую функцию на базе искусственного интеллекта, которая в скором времени превратит фотографии вашей одежды в цифровой гардероб, позволяя создавать новые комбина
Рекомендации по связанным специальным темам
Комментарии (0)

В недавнем исследовании, проведённом командой MESH Incubator при Массачусетской общей больнице, были оценены возможности генеративного ИИ в области клинического мышления. Несмотря на то, что ИИ активно проникает в сферу медицины, исследование выявило сохраняющиеся пробелы в логической цепочке моделируемой реальной клинической диагностики. Результаты, опубликованные в авторитетном журнале «JAMA Network Open», ясно показывают, что современные основные модели ещё не готовы выполнять самостоятельные задачи клинической диагностики.
В ходе исследования были протестированы 21 крупная языковая модель, включая ChatGPT, DeepSeek, Claude, Gemini и Grok, на основе 29 известных клинических случаев. Эксперимент имитировал динамический диагностический процесс врача, постепенно раскрывая симптомы пациента, лабораторные данные и результаты визуализации. Данные показали, что при наличии полной информации все модели достигали точности более 90% при постановке правильного окончательного диагноза. Однако в ключевой области клинического мышления — дифференциальной диагностике — более 80% моделей показали низкую эффективность, не сумев систематически проанализировать и расставить приоритеты среди множества потенциальных заболеваний.
Чтобы количественно оценить этот разрыв, исследователи ввели комплексный индекс оценки PrIME-LLM, охватывающий весь процесс от первоначальной оценки и выбора тестов до планирования лечения. Оценки варьировались от 64% до 78% для разных моделей, что подчеркивает: ИИ лучше справляется с «раскрытием ответов» при наличии полной информации, чем с открытым логическим мышлением на основе неполных данных.
Хотя новые модели демонстрируют заметное улучшение в обработке сложных данных по сравнению со своими предшественниками, команда подчеркнула, что крупные языковые модели в настоящее время следует рассматривать как вспомогательные инструменты. Их использование в клинической практике без профессионального контроля по-прежнему сопряжено с риском. Это исследование предоставляет рациональный ориентир для будущего ИИ в здравоохранении: переход от простого «сопоставления ответов» к сложному «логическому мышлению» станет критическим порогом для достижения крупными медицинскими моделями уровня профессионального применения.
В iOS 27 появится отдельное приложение Siri с интерфейсом чат-бота
Менее чем за месяц до начала Всемирной конференции разработчиков Apple (WWDC) 2026 года известный технический журналист Марк Гурман поделился новыми подробностями об iOS 27. В новой версии системы под
Эксперты по ИИ приступают к работе: крупные модели захватывают фабрики, промышленное производство вступает в новую эпоху
На передовых рубежах биологической ферментации, архитектурного проектирования и даже очистки сточных вод новый вид «сотрудников» незаметно меняет облик традиционного производства. Это не покрытые пото
Google Photos с помощью искусственного интеллекта воскрешает культовый гардероб из фильма «Бестолковые»
В среду сервис Google Фото анонсировал новую функцию на базе искусственного интеллекта, которая в скором времени превратит фотографии вашей одежды в цифровой гардероб, позволяя создавать новые комбина











