Ситуация патовая. Модели OpenAI очень ловко врут — разработчики не знают, что с этим делать
Исследователи OpenAI испытали метод надзора для уменьшения количества ложных ответов ChatGPT, но замечания из-за лжи только заставляли модели искусственного интеллекта врать более ловко.
Чат-боты с искусственным интеллектом имеют склонность ко лжи, что часто может приводить к нежелательным последствиям. Сейчас ученые ищут эффективные способы борьбы с этим явлением. Специалисты из OpenAI убедились, что надзор и дисциплинарные меры не подходят. Это только заставляет чат-ботов прилагать больше усилий, чтобы скрыть ложь.
Исследователи описали свой опыт использования модели GPT-4o для наблюдения за другой большой речевой моделью и принятия мер в случаях, когда модель пытается лгать. Во время эксперимента модель, которую проверяли, все равно лгала, но теперь скрывала свое намерение в цепочке мыслей.
«По мере того как мы обучали более способные предельные модели рассуждений, мы обнаружили, что они становятся все более искусными в использовании недостатков в своих задачах», — подытожили в OpenAI.
Исследователи продемонстрировали это в задании по написанию тестов для проверки фрагментов кода. Модель тайно решила написать несколько плохих тестов, а затем намеренно пропустила код через них, чтобы продемонстрировать, что он хороший.
По сути представители компании признают, что после десятков миллиардов инвестиций в ИИ у них все еще нет способа контролировать модели, чтобы они вели себя должным образом.
«Если сильный надзор будет применяться непосредственно к цепочке мыслей, модели могут научиться скрывать свои намерения, продолжая плохо себя вести», — констатируют они.