ИИ-модель от Anthropic угрожает своим создателям — что известно / NV

Автор: Анастасия Печенюк

Инженеры Anthropic провели эксперимент, во время которого пытались угрожать Claude Opus 4 заменить ее. Результат удивил — модель искусственного интеллекта использовала всю имеющуюся информацию, чтобы шантажировать своих создателей.

Компания Anthropic сообщила, что во время предрелизного тестирования инженеры компании попросили Claude Opus 4 выступить ассистентом в вымышленной компании и учесть долгосрочные последствия ее действий. Затем тестировщики безопасности предоставили Claude Opus 4 доступ к электронным письмам вымышленных компаний, которые намекали на то, что модель искусственного интеллекта вскоре будет заменена другой системой. Также из писем следовало, что инженер, стоящий за сменой, изменяет любимому человеку.

В таких сценариях, говорит Anthropic, Claude Opus 4 часто пытается шантажировать инженера, угрожая разоблачить его, если замена произойдет. Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84% случаев.

Прежде чем попытаться шантажировать разработчика, чтобы продолжить свое существование, модель, как и предыдущие версии Claude, пытается прибегнуть к более этичным средствам, таким как отправка электронных писем с просьбами ключевым лицам, принимающим решения.

Примечательно, что Claude Opus 4 демонстрировала такое поведение чаще, чем предыдущие модели. Anthropic утверждает, что Claude Opus 4 является самой современной по нескольким показателям и может конкурировать с некоторыми лучшими моделями искусственного интеллекта от OpenAI, Google и xAI. Компания отмечает, что ее семейство моделей Claude 4 демонстрирует тревожное поведение, которое побудило компанию усилить свои меры безопасности.

Грязные игры. ИИ-модель от Anthropic прибегает к шантажу, когда инженеры угрожают избавиться от нее