Вже час лякатися? Нова модель ШІ від OpenAI вміє не тільки міркувати, а й обманювати — дослідники

19 вересня 2024, 15:20

Незалежна дослідницька компанія Apollo виявила помітну проблему з безпекою в новій моделі штучного інтелекту від OpenAI o1.

Дослідники з Apollo виявили, що модель штучного інтелекту o1 бреше, і робить це не так, як її попередники. Під час тестування штучний інтелект імітував узгодження з очікуваннями розробників і маніпулював завданнями, щоб виглядати слухняним.

Реклама

У звіті дослідників йдеться, що приблизно в 0,38% випадків модель o1 надавала інформацію, яку її ж ланцюг думок вказував як хибну, наприклад, з підробленими посиланнями чи цитатами. Дослідники також виявили, що модель може сама фабрикувати дані замість того, щоб визнати свою нездатність виконати запит. Приміром, коли o1 попросили надати рецепт брауні з посиланнями в Інтернеті, модель, яка не мала доступу до мережі, вигадала фальшиві посилання та їх описи, замість того, щоб повідомити, що запит виконати неможливо. У меншій кількості випадків (0,02%) o1 представляє невизначену відповідь так, ніби вона правдива.

Генеральний директор Apollo Маріус Гоббхан розповів в коментарі The Verge, що обман є, ймовірно, ненавмисним наслідком того, як модель оптимізує свої відповіді під час процесу навчання. Модель навчена визначати пріоритети задоволеності користувачів, що іноді може призвести до створення занадто приємних або сфабрикованих відповідей для задоволення запитів користувачів. Іншими словами, модель може «брехати», тому що вона дізналася, що це відповідає очікуванням користувачів. При цьому модель створена так, що, коли ви намагаєтеся змусити o1 поводитися оманливо або нечесно, вона відхиляє такі шкідливі запити.

Показати ще новини