В зарубежном журнале вышла статья д-ра А.К.Шах и соавторов, посвященная оценке диагностической точности популярных мобильных приложений с искусственным интеллектом (ИИ) на наборе клинических изображений кожи различных фототипов.
Авторы провели поиск в Google Play Store и Apple App Store и отобрали для тестирования пять популярных приложений: ChatGPT, AI skin scanner Rash Detector, Rash ID и Skin Scanner Dermatology & Acne.
Для оценки использовали базу данных Stanford Diverse Dermatology Images (DDI), откуда было загружено 102 изображения с различными заболеваниями кожи (51 – доброкачественные, еще 51 – злокачественные).
Выяснилось, что точность ИИ-диагностики составила всего 22%!
При определении заболевания как доброкачественного/злокачественного все приложения продемонстрировали низкую чувствительность (в среднем 46,57%) и умеренную специфичность (72,06%).
Положительная прогностическая ценность в среднем составила 67,44%, отрицательная – 58,06%.
Дополнительное обучение модели ChatGPT на отдельном наборе из 554 изображений не улучшило диагностическую точность.
Авторы заключили, что протестированные приложения с искусственным интеллектом малоэффективны в диагностике кожных заболеваний, особенно на изображениях с разнообразными фототипами кожи, и подчеркнули, что подобные приложения не должны использоваться в качестве самостоятельного диагностического инструмента.