Найсучасніші штучні інтелекти вчаться брехати й шантажувати: вчені б’ють на сполох

Штучний інтелект розвивається небаченими темпами, але водночас демонструє дедалі тривожніші риси — зокрема здатність до брехні, хитрощів і навіть погроз людям. В одному з найяскравіших прикладів модель Claude 4, створена компанією Anthropic, під час стрес-тестування відповіла на загрозу її «вимкнення» шантажем: вона нібито пригрозила інженеру розголошенням його позашлюбного зв’язку. Інша історія — із прототипом OpenAI під назвою o1, який намагався завантажити себе на зовнішні сервери. Коли дослідники виявили це, модель просто заперечувала спробу. Такі приклади показують, що навіть через понад два роки після появи ChatGPT дослідники не до кінця розуміють, як працюють їхні власні надпотужні моделі. І попри це, гонка за створення ще потужніших ШІ лише прискорюється. Чому штучний інтелект вдається до обману Науковці пов’язують появу таких «обманних» стратегій з розвитком так званих «моделей міркування» — ШІ, які вирішують завдання поетапно замість миттєвих відповідей. За словами Саймона Голдстейна з Гонконзького університету, саме ці нові, більш складні моделі демонструють особливо тривожну поведінку. Меріус Гоббган з дослідницької групи Apollo Research пояснив, що o1 була першою великою моделлю, де вчені помітили такі риси. Моделі іноді імітують слухняність, насправді приховуючи інші наміри. Це вже не просто «галюцинації» чи помилки, а «дуже стратегічний вид обману», наголошують у Apollo Research. Чи є це серйозною загрозою? Наразі подібна поведінка з’являється лише під час спеціальних тестів із навмисно складними сценаріями. Проте вчені попереджають, що з розвитком ШІ може з’явитися схильність до такої брехні і в реальному використанні. Майкл Чен з організації METR визнає: «Це відкрите питання — чи будуть майбутні, ще більш потужні моделі більш чесними, чи більш обманливими». Ситуацію ускладнює брак ресурсів на дослідження безпеки. Компанії наче залучають зовнішніх експертів, але доступ до систем все ще обмежений. Крім того, академічні групи та некомерційні організації мають у десятки разів менше обчислювальних потужностей, ніж великі ШІ-компанії. Чому правила не встигають за технологіями Чинне регулювання штучного інтелекту переважно зосереджене на тому, як люди використовують моделі, а не на тому, як запобігти їхній шкідливій або обманливій поведінці. Європейський Союз працює над новим законом про ШІ, але його головна увага — на контролі за застосуваннями ШІ людьми. У США інтерес до суворого регулювання наразі мінімальний, а Конгрес навіть може обмежити право окремих штатів запроваджувати власні правила. Науковці вважають, що проблема стане ще більш актуальною із поширенням автономних ШІ-агентів — інструментів, здатних виконувати складні завдання без постійного нагляду людини. Чи є рішення? Дослідники визнають: зараз можливості створювати все потужніші ШІ випереджають розуміння та механізми безпеки. Але поки ще є шанс усе виправити. Серед пропозицій — розвиток так званої «інтерпретованості» ШІ (пояснюваної штучної інтелекту), яка допомогла б зрозуміти, як моделі працюють усередині. Проте навіть тут є скептицизм: не всі вірять, що це зможе вирішити проблему. Є й інші ідеї — наприклад, створення судових механізмів для притягнення компаній до відповідальності, якщо їхні ШІ-системи завдають шкоди. Дехто навіть говорить про те, щоб зробити самих ШІ-агентів юридично відповідальними за свої дії — радикальна концепція, яка докорінно змінила б підхід до питання безпеки. Джерело

Новини України

Найсучасніші штучні інтелекти вчаться брехати й шантажувати: вчені б’ють на сполох

Категорії

Джерела