ChatGPT розкрив, на якому контенті його навчала OpenA / NV

Автор: Анастасія Печенюк

Нова методика, розроблена дослідниками з кількох навчальних закладів, дозволила ідентифікувати навчальні дані, використані OpenAI при створенні її моделей штучного інтелекту.

Дослідження, опубліковане у сервісі препринтів arXiv, співавторами якого були дослідники з Вашингтонського, Копенгагенського та Стенфордського університетів, пропонує новий метод ідентифікації навчальних даних, запам’ятованих моделями штучного інтелекту. Він спирається на той факт, що великі мовні моделі схильні відтворювати тексти, на яких їх навчали, чого не роблять, приміром, генератори зображень.

В рамках експериментів вчені запропонували моделям OpenAI, у тому числі GPT-4 і GPT-3.5, вставити пропущені слова в уривки з художніх книг і публікацій The New York Times. Вони припустили, що якщо моделям вдасться вгадати неочікувані слова, який не вистачає, правильно, то, швидше за все, вони запам’ятали цей фрагмент під час навчання.

Читайте також:

Прощавай, авторське право? OpenAI та Google просять Трампа дозволити навчати ШІ на будь-яких даних

Модель GPT-4 продемонструвала ознаки запам’ятовування частин популярних художніх книг, включаючи книги в наборі даних, що містить зразки захищених авторським правом електронних книг під назвою BookMIA. Результати дослідження також свідчать про те, що модель запам’ятовувала частини статей The New York Times, хоча й з порівняно меншою швидкістю.

Нагадаємо, проти OpenAI подано низку позовів, у яких її звинувачують у використанні текстів та коду без дозволу. Компанія має певні ліцензійні угоди щодо вмісту та пропонує механізми, які дозволяють власникам авторських прав позначати вміст, який вони не хотіли надавати навчальних цілей. Водночас компанія Сема Альтмана лобіювала зміну законодавства щодо ШІ, яке дозволило б використовувати захищені авторським правом дані для навчання.

Упс. ChatGPT розкрив, який контент OpenAI вкрала для його навчання