ШІ помиляється у 80% випадків: не довіряйте ChatGPT для діагностики хвороб

Зображення: iTechua

Сучасні моделі штучного інтелекту, такі як ChatGPT, виявилися вкрай ненадійними для ранньої медичної діагностики, допускаючи понад 80% помилок. Це змушує фахівців застерігати від їх використання для самостійного встановлення діагнозу без консультації лікаря.

Деталі дослідження

Нові результати, опубліковані цього тижня в науковому виданні JAMA Network Open, представила команда дослідників під керівництвом студентки Гарвардського університету Ар’ї Рао. Вчені оцінили роботу 21 популярної моделі ШІ, використовуючи 29 стандартизованих клінічних сценаріїв.

Хоча системи штучного інтелекту продемонстрували високу точність (до 91%) у наданні загальної медичної інформації та постановці фінального діагнозу, головні проблеми виникли саме на етапі ранньої диференціальної діагностики. Саме тоді, коли необхідно відсіяти можливі захворювання, було зафіксовано понад 80% помилок.

Ар’я Рао у коментарі для The Register зазначила, що “кожна протестована модель провалилася у більшості випадків”. Вона підкреслила критичність цього етапу, оскільки саме тут рівень невизначеності є найвищим, і саме тут ШІ виявляє найбільшу слабкість. Навіть за м’якшими критеріями, що враховували частково коректні відповіді, точність коливалася в межах 63-78%.

Застереження експертів

Дослідники рішуче наголошують, що сучасні великі мовні моделі (LLM) не повинні використовуватися як інструменти для самостійної діагностики без участі кваліфікованого медичного фахівця.

Цю думку підтримав і співавтор роботи, радіолог Массачусетської лікарні загального профілю Марк Суччі. За його словами, системи ШІ часто демонструють надмірну впевненість без належного обґрунтування своїх висновків, особливо у складних випадках диференціальної діагностики. Така необґрунтована впевненість може лише посилювати тривожність пацієнтів.

Наслідки та рекомендації

На думку авторів дослідження, активне просування LLM як діагностичних інструментів створює хибне відчуття надійності. Постійні помилки на початковому етапі діагностики свідчать про те, що таким системам поки не можна довіряти у прийнятті ключових рішень.

Марк Суччі також застеріг, що високі показники точності фінального діагнозу можуть вводити в оману. Він пояснив: “Справжнє клінічне мислення починається саме там, де найбільше невизначеності – і саме цей етап залишається найслабшим”. Помилки на ранніх стадіях, навіть якщо кінцевий діагноз виявиться правильним, можуть призвести до затримок у лікуванні, зайвих медичних процедур та додаткових фінансових витрат.

Отже, при виникненні питань щодо власного здоров’я, фахівці рекомендують звертатися до лікаря, а не покладатися на інформацію з інтернету чи поради штучного інтелекту. На сьогоднішній день ШІ ще не готовий повноцінно виконувати роль медичного консультанта.

За матеріалами: iTechua