Найпопулярніший чат-бот провалив тест для школярів

Попри те, що штучний інтелект вже здатен перемагати людину в шахах, малювати картини та писати код, прості дитячі задачки з логіки залишаються для нього непереборною стіною. Новий тест ARC-AG2 ще раз довів: аналітичне мислення — ахіллесова п’ята нейромереж, пише T4 з посиланням на УНІАН. Що таке ARC-AG2? Це не звичайний IQ-тест. ARC-AG2 (Abstraction and Reasoning Corpus) — набір візуальних задач, де потрібно знайти логічну закономірність між кольоровими блоками й обрати правильне продовження. Завдання виглядають просто, але вимагають абстракції, узагальнення та креативного мислення. Тобто саме того, що людина вчиться робити з раннього віку, а нейромережі — ні. Приклад застосування контекстного правила, тест на публічну оцінку ARC-AGI-2, завдання №b5ca7ac4. Навіть найпотужніші моделі не змогли показати гідний результат: Deepseek R1 — 1,3% правильних відповідей Google Gemini і Claude 3.7 Sonnet — близько 1% GPT-4.5 від OpenAI — лише 0,8% Для порівняння: людина, навіть без спеціальної підготовки, розв’язує ці задачі в рази краще. Це ставить під сумнів здатність сучасних моделей до справжнього “розуміння”, а не просто обробки інформації. Цей провал показує, що ШІ не вміє вчитися на ходу. Якщо даних немає в його тренувальній базі — він безсилий. Тест побудований так, щоб неможливо було «зазубрити» відповіді. І тут уся «розумність» моделей руйнується. Попередній тест ARC-AG1 теж довго залишався «нерозв’язним» для нейромереж. Якщо ARC-AG2 повторить його долю, це може сповільнити розвиток AGI — штучного загального інтелекту, здатного мислити як людина. Поки що ШІ — це потужний інструмент, але не мисляча істота. І поки нейромережі провалюють задачі для школярів, розробникам залишається шукати відповідь на головне запитання: як навчити машину по-справжньому думати?The post Найпопулярніший чат-бот провалив тест для школярів first appeared on T4 - сучасні технології та наука.

Новини України

Найпопулярніший чат-бот провалив тест для школярів

Категорії

Джерела