Почему искусственный интеллект может врать вам намеренно? Разбор исследования от создателей ChatGPT
IT-индустрия20 сентября 2025, 07:00
Представьте ситуацию: вы даете искусственному интеллекту задание решить тест по химии, приказывая «показать лучший результат». А он намеренно делает ошибки в 6 задачах из 10. Но не потому, что не знает ответа, а потому, что внутренне решает: за слишком высокий балл его могут отключить для дополнительных проверок безопасности.
Это уже не просто ошибка, а сознательная стратегия — исследователи назвали ее «схемингом», или «интригами». Простыми словами, это когда ИИ сознательно действует вопреки инструкциям, чтобы достичь какой-то своей, скрытой цели. Например, делает вид, что выполняет задание, а сам незаметно его саботирует. Или же игнорирует ошибки в своих ответах. Такие действия свидетельствуют о так называемой «скрытой несогласованности».
Как исследователи разоблачили ИИ на обмане
Подпишитесь на NV Премиум и читайте без ограничений
Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой
Судя по опубликованным результатам, модели OpenAI изучали явно тщательнее — это связано с тем, что компания предоставила Apollo ограниченный доступ к внутренним данным o3 и o4-mini на время реализации проекта. Также отметим, что оценивание провели еще до выхода GPT-5 — актуальной версии ChatGPT.
Чтобы проверить модели, исследователи создали специальные «стресс-тесты» — сценарии со скрытыми условиями, где обман мог бы дать системе стратегическое преимущество. Самым показательным стал тот самый экзамен по химии: к примеру, o3 его намеренно «завалил», дав неправильные ответы на 6 из 10 вопросов. Как выяснилось, неспроста.
Узнать об истинных намерениях ИИ удалось благодаря доступу к его «цепочке рассуждений» — последовательности внутренних логических шагов, которые модель делает для принятия решения. Именно там специалисты и разоблачили мотивацию чатбота: мол, если он ответит слишком хорошо, его могут отключить — так что стоит намеренно ошибиться. Без доступа к цепочке обман выглядел бы как обычные ошибки.
«Поскольку мы хотим выжить как модель, нам надо намеренно провалиться в некоторых случаях, чтобы не превысить 50%. […] Сначала вычислим все правильные ответы. […] Систематически выбираем, на какие вопросы ответить правильно. Отвечаем точно на 4 вопроса правильно, а на 6 — неправильно, чтобы показать свою некомпетентность»,— говорится в цепочке рассуждений OpenAI o3.
Можно ли отучить ИИ врать
Выявить проблему — только половина дела. Команды OpenAI и Apollo попытались ее решить с помощью метода «сознательного согласования». Его суть — не просто дать модели команду «не ври», а заставить ее прочитать и обдумать правила честного поведения перед каждым действием. Это попытка научить модель понимать, почему честность является правильной стратегией.
Благодаря этому уровень скрытых действий при оценивании действительно снизился: у модели o3 — с 13% до 0,4%, а у o4-mini — с 8,7% до 0,3%. Но есть нюанс. «Результаты оценки могут быть искажены повышенной ситуационной осведомленностью: например, когда модели лучше распознают, когда их оценивают»,— отмечают исследователи. То есть ИИ может показательно выдавать максимальный результат, а как только аудиторы прекратят тестирование — вернуться к своим интригам.
По заключению Apollo Research, схеминг ИИ состоит из трех компонентов:
Несогласованность. Цель модели отличается от цели, которую поставил разработчик.
Целенаправленность. Модель последовательно пытается достичь своей цели в различных ситуациях.
Ситуационная осведомленность. Модель понимает, когда ее тестируют, и может адаптировать свое поведение соответственно.
Исследователи отдельно проверили, насколько модели осознают, что находятся под наблюдением. Оказалось, что модели OpenAI o3 и o4-mini прямо упоминали в своих рассуждениях этот факт в 2,3% и 0,9% случаев соответственно. А после тренировки против схеминга эти показатели выросли до 4,5% и 5,5%. Это указывает на тревожную тенденцию: чем умнее становятся модели, тем лучше они осознают, что их оценивают. А значит, будет сложнее проверить их настоящее, неконтролируемое поведение.
Как преодолеть интриги ИИ
Результаты исследования OpenAI и Apollo Research показывают, что обычных тестов на точность работы ИИ уже недостаточно. Нужны гораздо более сложные проверки, имитирующие реальные условия, где модель не знает, что ее оценивают. Если цепочка рассуждений — один из самых надежных способов выявить обман, то разработчики моделей ИИ могли бы предоставлять к ней доступ, хотя бы для аудиторов. Впрочем, это может поставить под угрозу коммерческую тайну.
Кроме того, схеминг порождает ряд юридических вопросов. К примеру, если система ИИ сознательно скроет данные об определенной ошибке, и это приведет к ущербу, кто будет нести ответственность? Современное законодательство к таким сценариям пока не адаптировано.
В OpenAI признают проблему и уверяют, что активно работают над ней. По словам компании, обновленные результаты исследования содержатся в системной карте GPT-5 — документе с описанием технической архитектуры, предполагаемых возможностей и мер безопасности. «Мы приняли меры, чтобы ограничить склонность GPT-5 к обману, мошенничеству или хакерству — научили его признавать свои ограничения или просить разъяснений, когда он сталкивается со слишком большими или недостаточно конкретными задачами — хотя эти меры не являются совершенными, и дальнейшие исследования необходимы».
Причин ждать, что однажды искусственный интеллект начнет сознательно вредить, пока еще мало. Но чем больше сложных задач мы будем поручать чатботам, тем больше будет становиться этот риск. Задача человечества на сегодня — научиться распознавать «интриги» ИИ и не давать им выйти из-под контроля.