Новини України
Підбірка новин з українських джерел

Відповіді, згенеровані штучним інтелектом, часто містять помилки
Системи пошуку на основі штучного інтелекту, які відповідають на запитання, тепер діють як помічники дослідників, але вони не завжди заслуговують на таку довіру. Нове дослідження показує, що популярні інструменти часто роблять заяви, які не підтверджуються їхніми цитованими джерелами.
«Наша оцінка демонструє, що сучасні державні системи не виконують своєї обіцянки щодо забезпечення надійного синтезу, заснованого на джерелах», — сказав провідний автор Пранав Нараянан Венкіт з Salesforce AI Research (SAIR) у Пало-Альто, Каліфорнія.
Команда оцінила 303 запити за двома категоріями та перевірила відповіді на основі восьми показників доказів та джерел. Частка непідтверджених тверджень коливалася приблизно від чверті до майже половини в режимах пошуку, а одна конфігурація глибокого дослідження досягла 97,5 відсотка непідтверджених тверджень у своїх довгих звітах.
Як оцінюються відповіді пошуку зі штучним інтелектом
Фреймворк під назвою DeepTRACE перевіряє відповіді на рівні заяв, щоб побачити, що сказано, і чи дійсно перелічені джерела підтверджують це. Дослідники визначили вісім вимірів та обчислили їх для результату кожного інструменту.
До них належать однобокі відповіді, надмірно впевнені відповіді, частка релевантних тверджень, частка непідтверджених тверджень, частка нецитованих джерел, необхідність джерела, точність цитування та ретельність цитування. Однобічна відповідь має місце, коли на дискусійне питання представлена лише одна точка зору.
Надмірна впевненість проявляється, коли однобоку відповідь супроводжує дуже впевнений тон, що може ввести користувачів в оману, вважаючи, що спірне питання вирішено.
Необхідність джерела перевіряє, чи справді кожне перелічене джерело необхідне для підтвердження відповіді. Точність цитування перевіряє, чи конкретні джерела, на які посилаються в реченні, дійсно підтверджують це речення, а не лише загальну тему.
Непідтверджених заяв багато
У досліджуваних пошукових системах рівень непідтверджених тверджень сильно відрізнявся. У режимі пошуку однієї системи було близько 23 відсотків непідтверджених тверджень, тоді як в іншій системі цей показник для того ж класу завдань досяг 47 відсотків.
У налаштуваннях глибоких досліджень часто зменшувався надмірно впевнений тон, але не усувався непідтверджений контент. Один агент глибоких досліджень досяг 97,5% непідтверджених тверджень, незважаючи на створення довгих звітів з великою кількістю цитування. Оцінювання також виявило часті неправильні посилання. Навіть за наявності підтверджувального джерела, інструменти іноді цитували нерелевантне посилання, а не правильне.
Надмірна впевненість вводить користувачів в оману
Коли відповіді на спірні теми схиляються в один бік, людей можуть загнати у вузьку інформаційну смужку. Цей ризик посилюється, якщо система виглядає впевнено, але при цьому опускає контраргументи. Незалежна робота показала, що помічники можуть відображати висловлені погляди користувача – поведінка, відома як підлабузництво.
В одній нещодавній статті повідомлялося, що моделі, налаштовані на уподобання, часто узгоджуються з користувачем, навіть якщо це знижує правдивість. Запитання до обговорення в рамках аудиту підкреслюють цю тенденцію. Рівень однобокості залишався високим у всіх пошукових системах та режимах глибокого дослідження.
Тут важливе калібрування тону. Метрика надмірної впевненості, що застосовується в дослідженні, карає впевнену мову, коли бракує балансу.
Більше посилань на джерела не означає правду
Точність цитувань під час аудиту коливалася від 40 до 80 відсотків, залежно від системи. Такий розкид означає, що посилання у відповіді не завжди є правильним посиланням на речення, яке воно нібито підтримує. Автори також оцінили ретельність цитування, запитуючи, чи всі доступні посилання на підтвердження наведені там, де їм місце. Вони попереджають, що перелік великої кількості посилань не гарантує міцного обґрунтування.
«Більша кількість джерел і довші відповіді не забезпечують надійності», – написав Венкіт. Користувачам можуть надавати стіну посилань, тоді як ключові твердження залишаються слабо підтвердженими.
Необхідність джерела допомагає розвіяти цей туман. Якщо лише невелика підмножина посилань дійсно необхідна для підтвердження фактичних тверджень, решта може створити хибну впевненість.
Аудит пошуку має розвиватися разом із штучним інтелектом
Команда використовувала модель внутрішнього судді для оцінки впевненості, збалансованості та фактичної підтримки. Щоб закріпити ці судження, вони порівняли оцінки моделі з анотаціями, зробленими людиною, на підмножині та повідомили про значення кореляції Пірсона приблизно 0,72 для впевненості та 0,62 для фактичної підтримки.
Такий підхід дозволяє їм масштабуватися до тисяч перевірок. Це також викликає справедливі питання про те, коли автоматизоване оцінювання має поєднуватися з більш ретельною перевіркою людиною.
Набір даних охоплює 303 запити на теми дебатів та експертів. Серед тем для дебатів було питання про те, чи може альтернативна енергетика ефективно замінити викопне паливо, а теми для експертів досліджували такі галузі, як обчислювальна гідрологія.
Як і у випадку з будь-яким бенчмарком, результати є моментальною зміною в часі. Системи швидко змінюються, і для визначення того, чи покращилися точність, збалансованість та постачання, будуть потрібні подальші аудити.
Одним лише поверненням це не виправити
Висновки аудиту узгоджуються з ширшими занепокоєннями щодо фактичного відхилення під час створення довгих текстів. Комплексне дослідження галюцинацій у процесі генерації мови документує, як моделі можуть створювати вільний, але непідкріплений контент у різних завданнях.
Пошук допомагає, але він не вирішує всіх проблем. Моделі все ще повинні пов’язувати конкретні твердження з конкретними лініями доказів. Тут важливі визначення. Непідтверджене твердження — це речення, яке не має підтверджень у жодному з перелічених джерел, а точність цитування — це частка цитат, які підтверджують саме те речення, до якого вони приєднані.
Ці визначення є суворими за своєю суттю. Вони відображають те, як уважний читач перевіряв би твердження на відповідність джерелам рядок за рядком.
Ставтеся до ШІ як до чернетки
Ставтеся до пошуку за допомогою штучного інтелекту як до першого проходження, а не до остаточного вердикту. Якщо речення містить вагоме твердження, клацніть на нього та знайдіть саме той уривок у цитованому джерелі, який його підтверджує.
Зверніть увагу на впевнений тон у спірних питаннях. Якщо відповідь звучить певно, але не надає спростовуючих доказів, вважайте, що ви отримуєте лише частину картини.
Подивіться, скільки джерел насправді використовується. Якщо лише кілька посилань виконують справжню роботу, решта можуть бути лише показухою.
Невеликі звички мають велике значення. Перегляньте оригінальний матеріал, порівняйте принаймні два незалежні джерела та зверніть увагу, коли числа у відповіді не відображаються в посиланні. Дослідження опубліковано в arXiv .