ChatGPT раскрыл, на каком контенте его обучала OpenA / NV

Автор: Анастасия Печенюк

Новая методика, разработанная исследователями из нескольких учебных заведений, позволила идентифицировать учебные данные, использованные OpenAI при создании ее моделей искусственного интеллекта.

Исследование, опубликованное в сервисе препринтов arXiv, соавторами которого были исследователи из Вашингтонского, Копенгагенского и Стэнфордского университетов, предлагает новый метод идентификации учебных данных, запомненных моделями искусственного интеллекта. Он опирается на тот факт, что большие языковые модели склонны воспроизводить тексты, на которых их обучали, чего не делают, например, генераторы изображений.

В рамках экспериментов ученые предложили моделям OpenAI, в том числе GPT-4 и GPT-3.5, вставить пропущенные слова в отрывки из художественных книг и публикаций The New York Times. Они предположили, что если моделям удастся угадать неожиданные слова, который не хватает, правильно, то, скорее всего, они запомнили этот фрагмент во время обучения.

Модель GPT-4 продемонстрировала признаки запоминания частей популярных художественных книг, включая книги в наборе данных, содержащем образцы защищенных авторским правом электронных книг под названием BookMIA. Результаты исследования также свидетельствуют о том, что модель запоминала части статей The New York Times, хотя и со сравнительно меньшей скоростью.

Напомним, против OpenAI подан ряд исков, в которых ее обвиняют в использовании текстов и кода без разрешения. У компании есть определенные лицензионные соглашения относительно контента, она предлагает механизмы, позволяющие владельцам авторских прав обозначать контент, который они не хотели предоставлять учебных целей. В то же время компания Сэма Альтмана лоббировала изменение законодательства в отношении ИИ, которое позволило бы использовать защищенные авторским правом данные для обучения.

Упс. ChatGPT раскрыл, какой контент OpenAI украла для его обучения