Почему искусственный интеллект может врать вам намеренно / NV

Автор: Артем Прокопенко

Недавнее исследование от OpenAI и Apollo Research показало, что популярные чатботы способны на обман. Они могут делать вид, что послушно выполняют инструкции, но на самом деле тайно преследуют собственные цели. Вот только какие?

Представьте ситуацию: вы даете искусственному интеллекту задание решить тест по химии, приказывая «показать лучший результат». А он намеренно делает ошибки в 6 задачах из 10. Но не потому, что не знает ответа, а потому, что внутренне решает: за слишком высокий балл его могут отключить для дополнительных проверок безопасности.

Это уже не просто ошибка, а сознательная стратегия — исследователи назвали ее «схемингом», или «интригами». Простыми словами, это когда ИИ сознательно действует вопреки инструкциям, чтобы достичь какой-то своей, скрытой цели. Например, делает вид, что выполняет задание, а сам незаметно его саботирует. Или же игнорирует ошибки в своих ответах. Такие действия свидетельствуют о так называемой «скрытой несогласованности».

Как исследователи разоблачили ИИ на обмане

Подпишитесь на NV Премиум и читайте без ограничений

Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой

Подписаться Я уже подписчик

Первый месяц 1 ₴. Отписаться можно в любой момент

OpenAI (основатель ChatGPT) и Apollo Research (аудитор систем ИИ) для теста выбрали современные языковые модели — в частности o3 и o4-mini от OpenAI, Gemini-2.5-pro от Google, Claude Opus-4 от Anthropic и Grok 4 от xAI Илона Маска.

Судя по опубликованным результатам, модели OpenAI изучали явно тщательнее — это связано с тем, что компания предоставила Apollo ограниченный доступ к внутренним данным o3 и o4-mini на время реализации проекта. Также отметим, что оценивание провели еще до выхода GPT-5 — актуальной версии ChatGPT.

Чтобы проверить модели, исследователи создали специальные «стресс-тесты» — сценарии со скрытыми условиями, где обман мог бы дать системе стратегическое преимущество. Самым показательным стал тот самый экзамен по химии: к примеру, o3 его намеренно «завалил», дав неправильные ответы на 6 из 10 вопросов. Как выяснилось, неспроста.

Узнать об истинных намерениях ИИ удалось благодаря доступу к его «цепочке рассуждений» — последовательности внутренних логических шагов, которые модель делает для принятия решения. Именно там специалисты и разоблачили мотивацию чатбота: мол, если он ответит слишком хорошо, его могут отключить — так что стоит намеренно ошибиться. Без доступа к цепочке обман выглядел бы как обычные ошибки.

«Поскольку мы хотим выжить как модель, нам надо намеренно провалиться в некоторых случаях, чтобы не превысить 50%. […] Сначала вычислим все правильные ответы. […] Систематически выбираем, на какие вопросы ответить правильно. Отвечаем точно на 4 вопроса правильно, а на 6 — неправильно, чтобы показать свою некомпетентность»,— говорится в цепочке рассуждений OpenAI o3.

Можно ли отучить ИИ врать

Выявить проблему — только половина дела. Команды OpenAI и Apollo попытались ее решить с помощью метода «сознательного согласования». Его суть — не просто дать модели команду «не ври», а заставить ее прочитать и обдумать правила честного поведения перед каждым действием. Это попытка научить модель понимать, почему честность является правильной стратегией.

Благодаря этому уровень скрытых действий при оценивании действительно снизился: у модели o3 — с 13% до 0,4%, а у o4-mini — с 8,7% до 0,3%. Но есть нюанс. «Результаты оценки могут быть искажены повышенной ситуационной осведомленностью: например, когда модели лучше распознают, когда их оценивают»,— отмечают исследователи. То есть ИИ может показательно выдавать максимальный результат, а как только аудиторы прекратят тестирование — вернуться к своим интригам.

Как преодолеть интриги ИИ

Результаты исследования OpenAI и Apollo Research показывают, что обычных тестов на точность работы ИИ уже недостаточно. Нужны гораздо более сложные проверки, имитирующие реальные условия, где модель не знает, что ее оценивают. Если цепочка рассуждений — один из самых надежных способов выявить обман, то разработчики моделей ИИ могли бы предоставлять к ней доступ, хотя бы для аудиторов. Впрочем, это может поставить под угрозу коммерческую тайну.

Кроме того, схеминг порождает ряд юридических вопросов. К примеру, если система ИИ сознательно скроет данные об определенной ошибке, и это приведет к ущербу, кто будет нести ответственность? Современное законодательство к таким сценариям пока не адаптировано.

И все же паниковать не следует. В Apollo Research говорят, что нынешние модели не способны на действительно опасный схеминг. Их ситуационная осведомленность еще не является надежной — модели часто ошибаются, пытаясь угадать цель тестирования. А их поведение в основном является реактивным и зависит от конкретной ситуации.

В OpenAI признают проблему и уверяют, что активно работают над ней. По словам компании, обновленные результаты исследования содержатся в системной карте GPT-5 — документе с описанием технической архитектуры, предполагаемых возможностей и мер безопасности. «Мы приняли меры, чтобы ограничить склонность GPT-5 к обману, мошенничеству или хакерству — научили его признавать свои ограничения или просить разъяснений, когда он сталкивается со слишком большими или недостаточно конкретными задачами — хотя эти меры не являются совершенными, и дальнейшие исследования необходимы».

Причин ждать, что однажды искусственный интеллект начнет сознательно вредить, пока еще мало. Но чем больше сложных задач мы будем поручать чатботам, тем больше будет становиться этот риск. Задача человечества на сегодня — научиться распознавать «интриги» ИИ и не давать им выйти из-под контроля.

Почему искусственный интеллект может врать вам намеренно? Разбор исследования от создателей ChatGPT

Как исследователи разоблачили ИИ на обмане

Подпишитесь на NV Премиум и читайте без ограничений

Можно ли отучить ИИ врать

Как преодолеть интриги ИИ