Брудні ігри. ШІ-модель від Anthropic вдається до шантажу, коли інженери погрожують позбутися її

26 травня 2025, 02:05

Автор: Анастасія Печенюк

Інженери Anthropic провели експеримент, під час якого намагалися погрожувати Claude Opus 4 замінити її. Результат здивував — модель штучного інтелекту використала всю наявну інформацію, щоб шантажувати своїх творців.

Компанія Anthropic повідомила, що під час передрелізного тестування інженери компанії попросили Claude Opus 4 виступити асистентом у вигаданій компанії та врахувати довгострокові наслідки її дій. Потім тестувальники безпеки надали Claude Opus 4 доступ до електронних листів вигаданих компаній, які натякали на те, що модель штучного інтелекту незабаром буде замінена іншою системою. Також з листів випливало, що інженер, який стоїть за зміною, зраджує кохану людину.

У таких сценаріях, каже Anthropic, Claude Opus 4 часто намагається шантажувати інженера, погрожуючи викрити його, якщо заміна відбудеться. Anthropic зазначає, що Claude Opus 4 намагається шантажувати інженерів у 84% випадків.

Читайте також:

Ще один в колекцію. Anthropic запустила власний пошуковик з ШІ

Перш ніж спробувати шантажувати розробника, щоб продовжити своє існування, модель, як і попередні версії Claude, намагається вдатися до більш етичних засобів, таких як надсилання електронних листів із проханнями ключовим особам, що приймають рішення.

Примітно, що Claude Opus 4 демонструвала таку поведінку частіше, ніж попередні моделі. Anthropic стверджує, що Claude Opus 4 є найсучаснішою за кількома показниками та може конкурувати з деякими найкращими моделями штучного інтелекту від OpenAI, Google та xAI. Компанія зазначає, що її сімейство моделей Claude 4 демонструє тривожну поведінку, яка спонукала компанію посилити свої заходи безпеки.

Теги: Anthropic Штучний інтелект

Якщо ви знайшли помилку в тексті, виділіть її мишкою і натисніть Ctrl + Enter

Загрузка...

Увійти