OpenAI, ймовірно, використала крадені книжки для навчання GPT-3. Набори даних зникли разом з їхніми авторами

IT-індустрія

10 травня 2024, 08:05

Гільдія авторів позивається проти OpenAI через незаконне використання захищених авторським правом книг для навчання ШІ. Щоправда, цих наборів даних вже не існує, а дослідники, що їх створили, звільнилися.

Нещодавно розкриті судові документи у справі Гільдії авторів проти OpenAI показали, що стартап видалив два величезні набори даних під назвами books1 і books2, які використовувалися для навчання моделі штучного інтелекту GPT-3. Через ці набори компанія і зіткнулася з судовим позовом, пише Business Insider.

Юристи Гільдії авторів у судових справах стверджують, що ці набори даних, імовірно, містили понад 100 000 опублікованих книг. Протягом кількох місяців Гільдія намагалася отримати інформацію від OpenAI про ці набори даних. Спочатку компанія чинила опір, посилаючись на занепокоєння щодо конфіденційності, а потім оголосила, що позбулася їх. OpenAI описувала набори даних books1 і books2 як «корпуси книжок в Інтернеті» і говорила, що вони становлять 16% навчальних даних, використаних для створення GPT-3. Разом books1 і books2 містили 67 мільярдів токенів даних, або приблизно еквівалент 50 мільярдів слів. Оскільки ці набори даних уже видалено, компанія пропонує Гільдії авторів доступ до інших даних, які використовувалися для GPT-3.

«Моделі, які сьогодні використовують ChatGPT і наш API, не були розроблені з використанням цих наборів даних. Ці набори даних, створені колишніми співробітниками, які більше не працюють з OpenAI, востаннє використовували 2021 року, а потім видалили через невикористання у 2022 році», — стверджує компанія.

OpenAI також відмовлялася розголошувати особистості двох співробітників, які створили ці набори даних. Зрештою компанія повідомила їхні імена Гільдії авторів, але відмовилася називати їх публічно.

Високоякісні навчальні дані є важливою частиною потужних моделей штучного інтелекту. Для побудови цих моделей OpenAI та інші компанії використовували дані з Інтернету, зокрема, чимало книжок та публікацій ЗМІ. Багато компаній, які створили цю інформацію, хочуть отримувати гроші за надання даних для ШІ-продуктів. Зокрема, The New York Times судилася проти OpenAI через використання публікацій без дозволу.

Інші новини

Всі новини