Критическая ошибка. OpenAI рассказала, как случайно превратила ChatGPT в подхалима
Компания Сэма Альтмана OpenAI призналась, что тестировщики предупреждали ее о проблемах с моделью GPT-4o, но на это не обратили должного внимания.
В блоге OpenAI заявила, что ее усилия по лучшему учету отзывов пользователей, памяти и более свежих данных, могли частично привести к «опрокидыванию весов в сторону подхалимства». OpenAI говорит, что одна из «ключевых проблем» запуска связана с процессом тестирования.
Различные тестирования дали положительные результаты, некоторые эксперты-тестировщики предполагали, что обновление сделало чат-бота «немного не таким, как надо». Вопреки этому OpenAI все равно продолжила работу над этой версией своего чат-бота. В этих обновлениях OpenAI начала использовать данные с кнопок «большой палец вверх» и «большой палец вниз», которые пользователи ставят ответам чат-бота, как «дополнительный сигнал вознаграждения». Однако, по мнению специалисты OpenAI, это могло ослабить влияние основного сигнала вознаграждения, который сдерживал подхалимство. Компания отмечает, что отзывы пользователей «иногда могут способствовать более приятным ответам».
«Оглядываясь назад, мы видим, что качественные оценки намекали на что-то важное, и нам следовало уделить больше внимания. Они указывали на слепую зону в других наших оценках и метриках. Наши офлайн-оценки были недостаточно широкими и глубокими, чтобы уловить подхалимское поведение», — пишет компания.
В будущем OpenAI собирается «формально рассматривать поведенческие проблемы» как такие, которые могут заблокировать запуск, а также создать новую альфа-фазу, которая позволит пользователям предоставлять прямую обратную связь перед широким развертыванием.
Напомним, в последние недели пользователи заметили, что ChatGPT постоянно соглашается с ними, даже в потенциально опасных ситуациях. В начале мая генеральный директор OpenAI Сэм Альтман объявил о сворачивании последнего обновления модели искусственного интеллекта GPT-4o, которое подвергалось критике за подхалимство, от которого страдала эффективность.