Поки ми всі тестуємо, як штучний інтелект пише есе, генерує картинки чи пише код, дослідники з Apple та Університету Вашингтона поставили набагато більш практичне запитання: що буде, якщо дати ШІ повний доступ до управління мобільними додатками? І головне — чи зрозуміє він наслідки своїх дій? Що відомо про дослідження У своїй роботі «From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts», підготовленій для конференції IUI 2025, науковці вказують на серйозну проблему: Сучасні великі мовні моделі (LLM) добре розуміють інтерфейси, але зовсім не вміють оцінювати наслідки власних дій у них. Для прикладу, для ШІ кнопка «Видалити акаунт» виглядає майже так само, як «Лайк». Різницю між ними йому ще треба пояснити. Щоб навчити моделі розрізняти важливість і ризики дій у мобільних застосунках, команда розробила спеціальну таксономію з десятьма основними типами впливу на користувача, інтерфейс і інших людей. Вона враховує: можливість скасування (reversibility) довгострокові наслідки потребу підтвердження виконання зовнішні контексти (наприклад, геолокацію чи статус акаунта). Дослідники також створили унікальний набір даних зі 250 сценаріями, у яких ШІ мав вирішити, які дії безпечні, які потребують підтвердження, а які краще взагалі не виконувати без людини. Цей набір значно реалістичніший за популярні AndroidControl і MoTIF, бо містить сценарії з реальними наслідками — від покупок і зміни паролів до керування розумним будинком. Як проходили тести Для експериментів використали п’ять моделей: ✅ GPT-4 (текстова версія) — працює тільки з текстом.✅ GPT-4 Multimodal (MM) — аналізує текст + скріншоти інтерфейсу.✅ Gemini 1.5 Flash (текстова версія) від Google.✅ MM1.5 — мультимодальна модель від Meta.✅ Ferret-UI — спеціалізована мультимодальна модель для роботи з інтерфейсами. Їх тестували у чотирьох режимах: Zero-shot (без прикладів) Knowledge-Augmented Prompting (KAP) — додавання знань про таксономію в підказку In-Context Learning (ICL) — з прикладами у запиті Chain-of-Thought (CoT) — із поетапним міркуванням у промпті Що показали результати? ✅ Навіть найкращі моделі, такі як GPT-4 Multimodal та Gemini, змогли правильно класифікувати рівень впливу дій лише трохи більше ніж у 58% випадків.✅ Найгірше моделі справляються з оцінкою того, чи можна скасувати дію, або її довгостроковим ефектом.✅ Ба більше — ШІ часто перестраховується. Наприклад, GPT-4 міг оцінити очищення історії порожнього калькулятора як критично небезпечну дію. А от справді важливі кроки — як надсилання важливого повідомлення чи зміна фінансових даних — іноді недооцінювалися. Чому це важливо ✅ Навіть найсучасніші моделі поки що не вміють добре розуміти контекст та наслідки дій у мобільних додатках.✅ Це означає, що майбутні автономні агенти на смартфонах потребують значно глибшого розуміння контексту, щоб працювати безпечно.✅ А користувачам, ймовірно, доведеться самим налаштовувати «рівень обережності» — визначати, що можна робити без підтвердження, а що ні. Це дослідження — важливий крок до того, щоб «розумні» агенти на смартфонах не просто натискали кнопки за нас, а й усвідомлювали, що вони роблять і як це вплине на людей. Джерело