Команда сервиса МедАссист опубликовала на habr.com результаты сравнительного эксперимента: ChatGPT (GPT-5.4, тариф Plus) и специализированный медицинский сервис прогнали через пять клинических панелей — метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS и статин-индуцированный рабдомиолиз. Вопреки ожиданиям авторов, универсальная модель не промахнулась с главным диагнозом ни разу.
Где универсальная модель проиграла
Расхождение началось после постановки диагноза. ChatGPT, по данным авторов, не справился с тем, что в клинике называют планом действий на ближайшие две недели: к каким специалистам направлять пациента, какие исследования сдавать до начала терапии (ПСА перед заместительной терапией тестостероном, маммография перед МГТ), какие целевые уровни удерживать и с какой частотой контролировать. Картина повторилась на четырёх плановых кейсах. На пятом — MGUS — выиграл уже ChatGPT: он явно посчитал соотношение альбумин/глобулин и назвал список подтверждающих тестов для гематолога, чего специализированный сервис не сделал.
Зачем это важно
Эксперимент проведён 17 апреля 2026 года в одной сессии, методика зафиксирована до первого прогона, ответы приведены дословно. Авторы прямо обозначают конфликт интересов: они разработчики одного из сравниваемых сервисов. Пять кейсов — иллюстрация паттерна, а не статистика; рандомизированное исследование с ослеплёнными оценщиками заявлено как следующий шаг. Контекст подкрепляют публикации: PLOS ONE (2024) фиксировала корректную интерпретацию лабораторных вопросов ChatGPT лишь в 51% случаев, Nature Communications Medicine (2025) — встраивание ложного медицинского показателя в рассуждение в 83% случаев.
Что это значит для отрасли
Для рынка цифрового здравоохранения наблюдение прикладное: универсальные большие языковые модели уже подтягиваются к клиницистам по точности первичной гипотезы, но проседают на операционных деталях, от которых зависит безопасность пациента. Это смещает фокус разработки от «угадал диагноз» к проверяемым звеньям пайплайна:
- распознавание и валидация показателей с границами правдоподобия;
- обезличивание до отправки данных в модель;
- сверка маршрута и обследований с клиническими рекомендациями (Endocrine Society, ATA/ETA, российские гайдлайны).
Для регуляторов и заказчиков медицинских ИИ-сервисов вывод прагматичный: оценивать продукт стоит не по диагнозу, а по полноте сопровождения пациента после него.