Почему искусственный интеллект может врать вам намеренно? Разбор исследования от создателей ChatGPT
Почему ИИ может врать вам намеренно (Фото: upklyak/Freepik)
Недавнее исследование от OpenAI и Apollo Research показало, что популярные чатботы способны на обман. Они могут делать вид, что послушно выполняют инструкции, но на самом деле тайно преследуют собственные цели. Вот только какие?
Представьте ситуацию: вы даете искусственному интеллекту задание решить тест по химии, приказывая «показать лучший результат». А он намеренно делает ошибки в 6 задачах из 10. Но не потому, что не знает ответа, а потому, что внутренне решает: за слишком высокий балл его могут отключить для дополнительных проверок безопасности.
Это уже не просто ошибка, а сознательная стратегия — исследователи назвали ее «схемингом», или «интригами». Простыми словами, это когда ИИ сознательно действует вопреки инструкциям, чтобы достичь какой-то своей, скрытой цели. Например, делает вид, что выполняет задание, а сам незаметно его саботирует. Или же игнорирует ошибки в своих ответах. Такие действия свидетельствуют о так называемой «скрытой несогласованности».
Как исследователи разоблачили ИИ на обмане