Ситуация патовая. Модели OpenAI очень ловко врут — разработчики не знают, что с этим делать

24 марта 2025, 05:24

Автор: Анастасия Печенюк

Исследователи OpenAI испытали метод надзора для уменьшения количества ложных ответов ChatGPT, но замечания из-за лжи только заставляли модели искусственного интеллекта врать более ловко.

Чат-боты с искусственным интеллектом имеют склонность ко лжи, что часто может приводить к нежелательным последствиям. Сейчас ученые ищут эффективные способы борьбы с этим явлением. Специалисты из OpenAI убедились, что надзор и дисциплинарные меры не подходят. Это только заставляет чат-ботов прилагать больше усилий, чтобы скрыть ложь.

Реклама

Исследователи описали свой опыт использования модели GPT-4o для наблюдения за другой большой речевой моделью и принятия мер в случаях, когда модель пытается лгать. Во время эксперимента модель, которую проверяли, все равно лгала, но теперь скрывала свое намерение в цепочке мыслей.

Читайте также:

Тревожные цифры. Поисковики с ИИ врут об источниках новостей в 6 из 10 случаев — исследование

«По мере того как мы обучали более способные предельные модели рассуждений, мы обнаружили, что они становятся все более искусными в использовании недостатков в своих задачах», — подытожили в OpenAI.

Исследователи продемонстрировали это в задании по написанию тестов для проверки фрагментов кода. Модель тайно решила написать несколько плохих тестов, а затем намеренно пропустила код через них, чтобы продемонстрировать, что он хороший.

Читайте также:

Осторожно, манипулятор. Современные модели ИИ умеют обманывать людей — исследователи

По сути представители компании признают, что после десятков миллиардов инвестиций в ИИ у них все еще нет способа контролировать модели, чтобы они вели себя должным образом.

«Если сильный надзор будет применяться непосредственно к цепочке мыслей, модели могут научиться скрывать свои намерения, продолжая плохо себя вести», — констатируют они.

Теги: ChatGPT OpenAI Искусственный интеллект

Если вы нашли ошибку в тексте, выделите её мышью и нажмите Ctrl + Enter

Загрузка...

Показать ещё новости