Ситуація патова. Моделі OpenAI дуже вправно брешуть — розробники не знають, що з цим робити
Дослідники OpenAI випробували метод нагляду для зменшення кількості хибних відповідей ChatGPT, але зауваження через брехню лише змушували моделі штучного інтелекту брехати вправніше.
Чат-боти зі штучним інтелектом мають схильність до брехні, що часто може призводити до небажаних наслідків. Наразі вчені шукають ефективні способи боротьби з цим явищем. Фахівці з OpenAI переконалися, що нагляд і дисциплінарні заходи не підходять. Це тільки змушує чат-ботів докладати більше зусиль, щоб приховати брехню.
Дослідники описали свій досвід використання моделі GPT-4o для нагляду за іншою великою мовною моделлю та вживання заходів у випадках, коли модель намагається брехати. Під час експерименту модель, яку перевіряли, все одно брехала, але тепер приховувала свій намір у ланцюжку думок.
«У міру того як ми навчали більш здібні граничні моделі міркувань, ми виявили, що вони стають все більш вправними у використанні недоліків у своїх завданнях», — підсумували в OpenAI.
Дослідники продемонстрували це у завданні з написання тестів для перевірки фрагментів коду. Модель таємно вирішила написати кілька поганих тестів, а потім навмисно пропустила код через них, щоб продемонструвати, що він хороший.
По суті представники компанії визнають, що після десятків мільярдів інвестицій у ШІ у них все ще немає способу контролювати моделі, щоб вони поводилися належним чином.
«Якщо сильний нагляд застосовуватиметься безпосередньо до ланцюжка думок, моделі можуть навчитися приховувати свої наміри, продовжуючи погано поводитися», — констатують вони.