ИИ нашёл персональные данные в архиве телеком-оператора объёмом 80 ГБ

ARTW проверила около 30 тыс. документов за счёт связки OCR, языковых моделей и vLLM вместо 250–500 часов ручного труда.

2026-05-22

Российская ИТ-компания ARTW применила искусственный интеллект для поиска неучтённых персональных данных в корпоративном архиве телеком-оператора объёмом около 80 ГБ и порядка 30 тыс. документов. О проекте сообщает cnews.ru со ссылкой на представителей разработчика.

Как устроено решение

Архив включал PDF-файлы, сканы, изображения и офисные документы, среди которых могли встречаться копии удостоверяющих документов. Ручная проверка такого массива заняла бы от 250 до 500 часов. Команда развернула локальный контур обработки, объединив OCR, анализ изображений, языковые модели и фреймворк vLLM для инференса.

Проверка построена как многоступенчатый процесс: сначала отсекаются нерелевантные файлы, затем корректируются масштаб и контраст, после чего подключаются OCR, анализ структуры документа и поиск типовых шаблонов. Ручная верификация применяется только к спорным случаям, что позволяет не обрабатывать весь архив сплошным методом.

Почему это важно для здравоохранения

Для медицинских организаций задача инвентаризации персональных данных стоит особенно остро: в архивах клиник и страховых компаний скапливаются сканы паспортов, полисов, согласий на обработку данных и медицинских заключений. После миграций между МИС, выгрузок из ЕГИСЗ и длительного хранения такие массивы становятся непрозрачными, а ответственность за утечки усиливается оборотными штрафами.

Что это значит для отрасли

Аудит вместо инвентаризации вручную. Связка OCR и языковых моделей переводит проверку архивов из разряда многомесячных проектов в задачу на несколько дней.
Локальный контур. Обработка чувствительных документов на собственной инфраструктуре снимает часть рисков, связанных с передачей данных пациентов во внешние сервисы.
Запрос на готовые продукты. Подобные сценарии формируют рынок для отраслевых решений по комплаенсу — особенно в сегменте частных клиник и операторов телемедицины, где накоплены разнородные исторические данные.

По мере роста объёмов медицинских архивов автоматизированный поиск персональных данных, по оценке разработчиков, становится более востребованным инструментом контроля, чем выборочные ручные проверки.

#ИИ в медицине#регулирование#big data в здравоохранении