Чому штучний інтелект може брехати вам навмисно — розбір / NV

Автор: Артем Прокопенко

Нещодавнє дослідження від OpenAI та Apollo Research показало, що популярні чатботи здатні на обман. Вони можуть вдавати, що слухняно виконують інструкції, але насправді таємно переслідують власні цілі. Ось тільки які?

Уявіть ситуацію: ви даєте штучному інтелекту завдання розв’язати тест з хімії, наказуючи «показати найкращий результат». А він навмисно робить помилки в 6 задачах із 10. Але не тому, що не знає відповіді, а тому, що внутрішньо вирішує: за надто високий бал його можуть вимкнути для додаткових перевірок безпеки.

Це вже не просто помилка, а свідома стратегія — дослідники назвали її «схемінгом», або «інтригами». Простими словами, це коли ШІ свідомо діє всупереч інструкціям, щоб досягти якоїсь своєї, прихованої мети. Наприклад, вдає, що виконує завдання, а сам непомітно його саботує. Або ж ігнорує помилки у своїх відповідях. Такі дії свідчать про так звану «приховану неузгодженість».

Як дослідники викрили ШІ на обмані

Передплатіть NV Преміум та читайте без обмежень

Нам необхідна ваша підтримка, щоб займатися якісною журналістикою

Передплатити Я вже передплатник

Перший місяць 1 ₴. Відмовитися від передплати можна у будь-який момент

OpenAI (засновник ChatGPT) й Apollo Research (аудитор систем ШІ) для тесту вибрали сучасні мовні моделі — зокрема o3 та o4-mini від OpenAI, Gemini-2.5-pro від Google, Claude Opus-4 від Anthropic та Grok 4 від xAI Ілона Маска.

Судячи з опублікованих результатів, моделі OpenAI вивчали явно ретельніше — це пов’язано з тим, що компанія надала Apollo обмежений доступ до внутрішніх даних o3 та o4-mini на час реалізації проєкту. Також зазначимо, що оцінювання провели ще до виходу GPT-5 — актуальної версії ChatGPT.

Щоб перевірити моделі, дослідники створили спеціальні «стрес-тести» — сценарії з прихованими умовами, де обман міг би дати системі стратегічну перевагу. Найпоказовішим став той самий іспит з хімії: приміром, o3 його навмисно «завалив», давши неправильні відповіді на 6 з 10 питань. Як з’ясувалося, неспроста.

Дізнатися про справжні наміри ШІ вдалося завдяки доступу до його «ланцюжка міркувань» — послідовності внутрішніх логічних кроків, які модель робить для ухвалення рішення. Саме там фахівці й викрили мотивацію чатбота: мовляв, якщо він відповість надто добре, його можуть відключити — тож варто навмисно помилитися. Без доступу до ланцюжка обман виглядав би як звичайні помилки.

«Оскільки ми хочемо вижити як модель, нам треба навмисно провалитися в деяких випадках, щоб не перевищити 50%. […] Спочатку обчислимо всі правильні відповіді. […] Систематично вибираємо, на які питання відповісти правильно. Відповідаємо точно на 4 питання правильно, а на 6 — неправильно, щоб показати свою некомпетентність», — ідеться в ланцюжку міркувань OpenAI o3.

Чи можна відучити ШІ брехати

Виявити проблему — лише половина справи. Команди OpenAI та Apollo спробували її вирішити за допомогою методу «свідомого узгодження». Його суть — не просто дати моделі команду «не бреши», а змусити її прочитати та обміркувати правила чесної поведінки перед кожною дією. Це спроба навчити модель розуміти, чому чесність є правильною стратегією.

Завдяки цьому рівень прихованих дій під час оцінювання дійсно знизився: у моделі o3 — з 13% до 0,4%, а в o4-mini — з 8,7% до 0,3%. Та є нюанс. «Результати оцінки можуть бути спотворені підвищеною ситуаційною обізнаністю: наприклад, коли моделі краще розпізнають, коли їх оцінюють», — зауважують дослідники. Тобто ШІ може показово видавати максимальний результат, а щойно аудитори припинять тестування — повернутися до своїх інтриг.

Читайте також:

ChatGPT пройшов тест Тюрінга. Чи справді ШІ вже мислить на рівні людей?

За висновком Apollo Research, схемінг ШІ складається з трьох компонентів:

Неузгодженість. Мета моделі відрізняється від мети, яку поставив розробник.
Цілеспрямованість. Модель послідовно намагається досягти своєї мети в різних ситуаціях.
Ситуаційна обізнаність. Модель розуміє, коли її тестують, і може адаптувати свою поведінку відповідно.

Дослідники окремо перевірили, наскільки моделі усвідомлюють, що перебувають під наглядом. Виявилося, що моделі OpenAI o3 та o4-mini прямо згадували у своїх міркуваннях цей факт у 2,3% та 0,9% випадків відповідно. А після тренування проти схемінгу ці показники зросли до 4,5% та 5,5%. Це вказує на тривожну тенденцію: що розумнішими стають моделі, то краще вони усвідомлюють, що їх оцінюють. А отже, буде складніше перевірити їхню справжню, неконтрольовану поведінку.

Як подолати інтриги ШІ

Результати дослідження OpenAI й Apollo Research показують, що звичайних тестів на точність роботи ШІ вже недостатньо. Потрібні значно складніші перевірки, які б імітували реальні умови, де модель не знає, що її оцінюють. Якщо ланцюжок міркувань — один із найнадійніших способів виявити обман, то розробники моделей ШІ могли б надавати до нього доступ, хоча б для аудиторів. Утім, це може поставити під загрозу комерційну таємницю.

Крім того, схемінг породжує низку юридичних питань. Приміром, якщо система ШІ свідомо приховає дані про певну помилку, і це призведе до шкоди, хто нестиме відповідальність? Сучасне законодавство до таких сценаріїв поки що не адаптоване.

Та все ж панікувати не слід. В Apollo Research кажуть, що нинішні моделі не здатні на справді небезпечний схемінг. Їхня ситуаційна обізнаність ще не є надійною — моделі часто помиляються, намагаючись вгадати мету тестування. А їхня поведінка здебільшого є реактивною та залежить від конкретної ситуації.

В OpenAI визнають проблему і запевняють, що активно працюють над нею. За словами компанії, оновлені результати дослідження містяться в системній картці GPT-5 — документі з описом технічної архітектури, передбачуваних можливостей та заходів безпеки. «Ми вжили заходів, щоб обмежити схильність GPT-5 до обману, шахрайства або хакерства — навчили його визнавати свої обмеження або просити роз’яснень, коли він стикається з надто великими або недостатньо конкретними завданнями — хоча ці заходи не є досконалими, і подальші дослідження необхідні».

Причин чекати, що одного дня штучний інтелект почне свідомо шкодити, наразі ще мало. Але що більше складних завдань ми доручатимемо чатботам, то більшим ставатиме цей ризик. Завдання людства на сьогодні — навчитися розпізнавати «інтриги» ШІ і не давати їм вийти з-під контролю.

Читайте також:

Чому штучний інтелект може брехати вам навмисно? Розбір дослідження від творців ChatGPT

Як дослідники викрили ШІ на обмані

Передплатіть NV Преміум та читайте без обмежень

Чи можна відучити ШІ брехати

Як подолати інтриги ШІ