Ситуація патова. Моделі OpenAI дуже вправно брешуть — розробники не знають, що з цим робити

24 березня 2025, 05:24

Автор: Анастасія Печенюк

Дослідники OpenAI випробували метод нагляду для зменшення кількості хибних відповідей ChatGPT, але зауваження через брехню лише змушували моделі штучного інтелекту брехати вправніше.

Чат-боти зі штучним інтелектом мають схильність до брехні, що часто може призводити до небажаних наслідків. Наразі вчені шукають ефективні способи боротьби з цим явищем. Фахівці з OpenAI переконалися, що нагляд і дисциплінарні заходи не підходять. Це тільки змушує чат-ботів докладати більше зусиль, щоб приховати брехню.

Дослідники описали свій досвід використання моделі GPT-4o для нагляду за іншою великою мовною моделлю та вживання заходів у випадках, коли модель намагається брехати. Під час експерименту модель, яку перевіряли, все одно брехала, але тепер приховувала свій намір у ланцюжку думок.

Читайте також:

Тривожні цифри. Пошуковики з ШІ брешуть про джерела новин у 6 з 10 випадків — дослідження

«У міру того як ми навчали більш здібні граничні моделі міркувань, ми виявили, що вони стають все більш вправними у використанні недоліків у своїх завданнях», — підсумували в OpenAI.

Дослідники продемонстрували це у завданні з написання тестів для перевірки фрагментів коду. Модель таємно вирішила написати кілька поганих тестів, а потім навмисно пропустила код через них, щоб продемонструвати, що він хороший.

Читайте також:

Обережно, маніпулятор. Сучасні моделі ШІ вміють обманювати людей — дослідники

По суті представники компанії визнають, що після десятків мільярдів інвестицій у ШІ у них все ще немає способу контролювати моделі, щоб вони поводилися належним чином.

«Якщо сильний нагляд застосовуватиметься безпосередньо до ланцюжка думок, моделі можуть навчитися приховувати свої наміри, продовжуючи погано поводитися», — констатують вони.

Теги: ChatGPT OpenAI Штучний інтелект

Якщо ви знайшли помилку в тексті, виділіть її мишкою і натисніть Ctrl + Enter

Загрузка...

Увійти