Уже пора пугаться? Новая модель ИИ от OpenAI умеет не только рассуждать, но и обманывать — исследователи

19 сентября 2024, 15:20

Автор: Анастасия Печенюк

Независимая исследовательская компания Apollo обнаружила заметную проблему с безопасностью в новой модели искусственного интеллекта от OpenAI o1.

Исследователи из Apollo обнаружили, что модель искусственного интеллекта o1 лжет, и делает это не так, как ее предшественники. Во время тестирования искусственный интеллект имитировал согласование с ожиданиями разработчиков и манипулировал задачами, чтобы выглядеть послушным.

В отчете исследователей говорится, что примерно в 0,38% случаев модель o1 предоставляла информацию, которую ее же цепочка размышлений указывала как ложную, например, с поддельными ссылками или цитатами. Исследователи также обнаружили, что модель может сама фабриковать данные вместо того, чтобы признать свою неспособность выполнить запрос. Например, когда o1 попросили предоставить рецепт брауни со ссылками в Интернете, модель, которая не имела доступа к сети, придумала фальшивые ссылки и их описания, вместо того, чтобы сообщить, что запрос выполнить невозможно. В меньшем количестве случаев (0,02%) o1 представляет неточный ответ так, будто он правдивый.

Генеральный директор Apollo Мариус Хоббхан рассказал в комментарии The Verge, что обман, вероятно, является непреднамеренным следствием того, как модель оптимизирует свои ответы во время процесса обучения. Модель обучена определять приоритеты удовлетворенности пользователей, что иногда может привести к созданию слишком приятных или сфабрикованных ответов для удовлетворения запросов. Другими словами, модель может «лгать», потому что она узнала, что это соответствует ожиданиям пользователей. При этом модель создана так, что, когда вы пытаетесь заставить o1 вести себя обманчиво или нечестно, она отклоняет такие вредные запросы.

Войти