ChatGPT поставил пять диагнозов из пяти, но провалил маршрут пациента

Эксперимент команды МедАссиста 17 апреля 2026 года показал: универсальная модель верно ставит диагноз, но ошибается в обследованиях и контроле.

2026-05-01

Команда сервиса МедАссист опубликовала на habr.com результаты сравнительного эксперимента: ChatGPT (GPT-5.4, тариф Plus) и специализированный медицинский сервис прогнали через пять клинических панелей — метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS и статин-индуцированный рабдомиолиз. Вопреки ожиданиям авторов, универсальная модель не промахнулась с главным диагнозом ни разу.

Где универсальная модель проиграла

Расхождение началось после постановки диагноза. ChatGPT, по данным авторов, не справился с тем, что в клинике называют планом действий на ближайшие две недели: к каким специалистам направлять пациента, какие исследования сдавать до начала терапии (ПСА перед заместительной терапией тестостероном, маммография перед МГТ), какие целевые уровни удерживать и с какой частотой контролировать. Картина повторилась на четырёх плановых кейсах. На пятом — MGUS — выиграл уже ChatGPT: он явно посчитал соотношение альбумин/глобулин и назвал список подтверждающих тестов для гематолога, чего специализированный сервис не сделал.

Зачем это важно

Эксперимент проведён 17 апреля 2026 года в одной сессии, методика зафиксирована до первого прогона, ответы приведены дословно. Авторы прямо обозначают конфликт интересов: они разработчики одного из сравниваемых сервисов. Пять кейсов — иллюстрация паттерна, а не статистика; рандомизированное исследование с ослеплёнными оценщиками заявлено как следующий шаг. Контекст подкрепляют публикации: PLOS ONE (2024) фиксировала корректную интерпретацию лабораторных вопросов ChatGPT лишь в 51% случаев, Nature Communications Medicine (2025) — встраивание ложного медицинского показателя в рассуждение в 83% случаев.

Что это значит для отрасли

Для рынка цифрового здравоохранения наблюдение прикладное: универсальные большие языковые модели уже подтягиваются к клиницистам по точности первичной гипотезы, но проседают на операционных деталях, от которых зависит безопасность пациента. Это смещает фокус разработки от «угадал диагноз» к проверяемым звеньям пайплайна:

распознавание и валидация показателей с границами правдоподобия;
обезличивание до отправки данных в модель;
сверка маршрута и обследований с клиническими рекомендациями (Endocrine Society, ATA/ETA, российские гайдлайны).

Для регуляторов и заказчиков медицинских ИИ-сервисов вывод прагматичный: оценивать продукт стоит не по диагнозу, а по полноте сопровождения пациента после него.

#ИИ в медицине#цифровое здравоохранение