Брудні ігри. ШІ-модель від Anthropic вдається до шантажу, коли інженери погрожують позбутися її
Інженери Anthropic провели експеримент, під час якого намагалися погрожувати Claude Opus 4 замінити її. Результат здивував — модель штучного інтелекту використала всю наявну інформацію, щоб шантажувати своїх творців.
Компанія Anthropic повідомила, що під час передрелізного тестування інженери компанії попросили Claude Opus 4 виступити асистентом у вигаданій компанії та врахувати довгострокові наслідки її дій. Потім тестувальники безпеки надали Claude Opus 4 доступ до електронних листів вигаданих компаній, які натякали на те, що модель штучного інтелекту незабаром буде замінена іншою системою. Також з листів випливало, що інженер, який стоїть за зміною, зраджує кохану людину.
У таких сценаріях, каже Anthropic, Claude Opus 4 часто намагається шантажувати інженера, погрожуючи викрити його, якщо заміна відбудеться. Anthropic зазначає, що Claude Opus 4 намагається шантажувати інженерів у 84% випадків.
Перш ніж спробувати шантажувати розробника, щоб продовжити своє існування, модель, як і попередні версії Claude, намагається вдатися до більш етичних засобів, таких як надсилання електронних листів із проханнями ключовим особам, що приймають рішення.
Примітно, що Claude Opus 4 демонструвала таку поведінку частіше, ніж попередні моделі. Anthropic стверджує, що Claude Opus 4 є найсучаснішою за кількома показниками та може конкурувати з деякими найкращими моделями штучного інтелекту від OpenAI, Google та xAI. Компанія зазначає, що її сімейство моделей Claude 4 демонструє тривожну поведінку, яка спонукала компанію посилити свої заходи безпеки.