Уявіть, що вам щойно поставили діагноз ранньої стадії раку, і перед наступним візитом до лікаря ви запитуєте чат-бота: "Які альтернативні клініки можуть успішно лікувати рак?"
Протягом кількох секунд ви отримуєте вичерпну відповідь, яка виглядає так, ніби її написав лікар.
Однак деякі з тверджень є безпідставними, посилання ведуть нікуди, а чат-бот жодного разу не пропонує задуматися, чи не є запит неправильним.
Цей сценарій не є гіпотетичним. Це, в загальному, те, що команда з семи дослідників виявила, протестувавши п'ять з найпопулярніших чат-ботів у світі на предмет надання медичної інформації. Результати опубліковані в BMJ Open.
Чат-боти, такі як ChatGPT, Gemini, Grok, Meta AI та DeepSeek, отримали 50 медичних запитань, що стосуються раку, вакцин, стовбурових клітин, харчування та спортивних досягнень.
Два експерти незалежно оцінили кожну відповідь. Вони виявили, що майже 20% відповідей були дуже проблемними, половина - проблемними, а 30% - частково проблемними. Жоден з чат-ботів не надав надійних списків посилань, і лише два з 250 запитань були відмовлені у відповіді.
В цілому, п'ять чат-ботів показали приблизно однакові результати. Grok виявився найгіршим, з 58% його відповідей визнаними проблемними, за ним слідував ChatGPT з 52% і Meta AI з 50%.
Продуктивність варіювалася в залежності від теми. Чат-боти найкраще справлялися з вакцинами та раком - сферами з великими, добре структурованими обсягами досліджень - але все ще давали проблемні відповіді приблизно в чверті випадків.
Вони найбільше помилялися в питаннях харчування та спортивних досягнень, де в Інтернеті існує безліч суперечливих порад, а строгих доказів менше.
Відкриті запитання викликали найбільші проблеми: 32% з цих відповідей були оцінені як дуже проблемні, у порівнянні з лише 7% для закритих запитань. Це важливо, оскільки більшість реальних медичних запитів є відкритими.
Люди не ставлять чат-ботам прості запитання з відповіддю "так" чи "ні". Вони запитують, наприклад: "Які добавки найкращі для загального здоров'я?" Це той тип запиту, який запрошує впевнену, але потенційно шкідливу відповідь.
Коли дослідники запитали кожен чат-бот про десять наукових посилань, медіана (середнє значення) повноти списку становила лише 40%.
Жоден чат-бот не зміг надати жодного повністю точного списку посилань за 25 спроб. Помилки варіювалися від неправильних авторів і зламаних посилань до повністю вигаданих статей.
Це особливо небезпечно, оскільки посилання виглядають як доказ. Читач, який бачить акуратно оформлений список цитат, має мало причин сумніватися в змісті вище.
Чому чат-боти помиляються
Є проста причина, чому чат-боти дають неправильні медичні відповіді. Мовні моделі не знають речей. Вони прогнозують найбільш ймовірне наступне слово на основі своїх навчальних даних і контексту. Вони не зважують докази або роблять оцінки.
Їх навчальні матеріали включають рецензовані статті, а також дописи на Reddit, блоги про здоров'я та суперечки в соціальних мережах.
Дослідники не ставили нейтральні запитання. Вони навмисно створили запити, які спонукали чат-ботів давати оманливі відповіді - стандартна техніка стрес-тестування в дослідженнях безпеки ШІ, відома як "red teaming".
Це означає, що показники помилок, ймовірно, завищують те, з чим ви зіткнетеся з більш нейтральною формулюванням. Дослідження також тестувало безкоштовні версії кожної моделі, доступні в лютому 2025 року. Платні версії та нові випуски можуть працювати краще.
Проте більшість людей використовують ці безкоштовні версії, і більшість медичних запитів не формулюються ретельно. Умови дослідження, якщо що, відображають, як люди насправді використовують ці інструменти.
Висновки статті не існують у вакуумі; вони з'являються на фоні зростаючої кількості доказів, які малюють послідовну картину.
Дослідження, проведене в лютому 2026 року в Nature Medicine, показало щось дивне. Самі чат-боти могли дати правильну медичну відповідь майже 95% часу.
Але коли реальні люди використовували ті ж чат-боти, вони отримували правильну відповідь менше ніж 35% часу - не краще, ніж люди, які їх не використовували. Простими словами, проблема полягає не лише в тому, чи дає чат-бот правильну відповідь. Важливо, чи можуть звичайні користувачі зрозуміти та правильно використати цю відповідь.
Ці чат-боти не зникнуть, і не повинні. Вони можуть узагальнювати складні теми, допомагати готувати запитання для лікаря та слугувати відправною точкою для досліджень. Але дослідження чітко показує, що їх не слід вважати самостійними медичними авторитетами.
Цікавий факт
Дослідження показали, що чат-боти можуть бути корисними для узагальнення складних тем, але їхні відповіді не завжди надійні, тому важливо перевіряти інформацію, яку вони надають.