Сінгапурська компанія Sapient відкрила вихідний код нової ієрархічної моделі мислення HRM — компактної рекурентної архітектури, натхненої багаторівневою обробкою інформації в людському мозку. Модель має лише 27 млн параметрів і навчається на близько 1000 прикладах, але демонструє рівень абстрактного міркування, який змушує замислитись навіть прихильників гігантських LLM. За підсумками тестів на бенчмарку ARC-AGI (один із найжорсткіших іспитів на “загальний інтелект” у штучних систем), HRM показала 40,3% на ARC-AGI-1 і 5% на ARC-AGI-2. Для порівняння: o3-mini-high від OpenAI — 34,5% та 3%, Claude 3.7 — 21,2% і 0,9%, DeepSeek R1 — 15,8% і 1,3%. Ці цифри прозвучали в огляді Live Science із посиланням на препринт роботи. Як влаштована HRM HRM — це рекурентна (не трансформерна) архітектура з двома взаємопов’язаними модулями: Високорівневий (H) — “повільне” планування й абстрактні кроки; Низькорівневий (L) — “швидкі” детальні обчислення. Модель виконує завдання в один прямий прохід без явної розмітки проміжних кроків, але запускає короткі “ривки мислення” з ітеративним уточненням і механізмом “зупинити чи продовжити”, що дозволяє адаптивно витрачати обчислення. arXiv Де вона сильна У препринті та репозиторії йдеться, що HRM досягає майже ідеальної точності на складних судоку та показує оптимальний пошук шляху в великих лабіринтах — задачах, де традиційні LLM часто “ламаються” без спеціальних підказок або довгих ланцюжків думок (CoT). Код і інструкції для відтворення цих експериментів уже опубліковані. Чому це важливо Ефективність: 27 млн параметрів і ~1000 прикладів проти мільярдів/трильйонів у сучасних LLM — це інший підхід до розуміння, а не просто масштабування. Інша парадигма: замість CoT-ланцюжків HRM покладається на ієрархічне планування та зовнішній цикл уточнення, зменшуючи залежність від величезних датасетів і промт-хитрощів. Відкритість: наявність GitHub-репозиторію з чекпойнтами (ARC-2, Sudoku, Maze) полегшує незалежну валідацію. Але є “ложка дьогтю” Організатори ARC Prize самостійно перевірили HRM на напівприватному наборі ARC і відтворили тенденцію, але з нижчими балами (близько 32% на ARC-AGI-1 і 2% на ARC-AGI-2). Головне ж — у серії абляцій вони з’ясували, що ієрархічність архітектури дає мінімальний внесок, тоді як недостатньо задокументований “зовнішній цикл” уточнення під час тренування забезпечує левову частку ефекту. Команда також зауважує обмеження з “пазл-ембеддингами”: поточна реалізація прив’язує модель до ідентифікаторів задач, бачених у тренуванні, що ставить питання до узагальнення поза відомі “головоломки”. Що таке ARC-AGI і навіщо він потрібен ARC-AGI — бенчмарк Франсуа Шолле, покликаний міряти не “зазубрені знання”, а “рухливий інтелект”: здатність вивчати правила з мінімуму прикладів і переносити навички. У 2025-му з’явилась складніша версія ARC-AGI-2, яка сильніше карає за неефективні підходи. Де спробувати Код та інструкції HRM: інсталяція, генерація датасетів, запуск Sudoku/Maze/ARC, чекпойнти на Hugging Face — усе в офіційному репозиторії. Оригінальний препринт на arXiv (останнє оновлення — 4 серпня 2025). Висновок HRM — цікавий прорив у дизайні “розуміючих” моделей: компактна, ієрархічна, з адаптивним часом обчислень і без залежності від CoT. Її сила на ARC і в задачах типу Sudoku/Maze — справжній сигнал. Водночас перевірка ARC Prize остуджує “хайп”: архітектура ≠ уся магія, значну роль відіграє зовнішній цикл уточнення та специфіка тренувального пайплайна. Далі — рецензування, нові тести (в т.ч. ARC-AGI-2/3) і перевірка узагальнення за межі пазлів. Джерела: arXiv препринт HRM; офіційний GitHub-репозиторій; блоги ARC Prize про верифікацію; новинні звіти Live Science (27 серпня 2025). arXivGitHubARC PrizeLive Science