Детективная история — OpenAI уничтожила наборы данных, из-за которых против нее судятся / NV

Автор: Анастасия Печенюк

Гильдия авторов судится против OpenAI из-за незаконного использования защищенных авторским правом книг для обучения ИИ. Правда, этих наборов данных уже не существует, а исследователи, которые их создали, уволились.

Недавно раскрытые судебные документы по делу Гильдии авторов против OpenAI показали, что стартап удалил два огромных набора данных под названиями books1 и books2, которые использовались для обучения модели искусственного интеллекта GPT-3. Из-за этих наборов компания и столкнулась с судебным иском, пишет Business Insider.

Юристы Гильдии авторов в судебных делах утверждают, что эти наборы данных, вероятно, содержали более 100 000 опубликованных книг. В течение нескольких месяцев Гильдия пыталась получить информацию от OpenAI об этих наборах данных. Сначала компания сопротивлялась, ссылаясь на обеспокоенность о конфиденциальности, а затем объявила, что избавилась от них. OpenAI описывала наборы данных books1 и books2 как «корпуса книг в Интернете» и говорила, что они составляют 16% учебных данных, использованных для создания GPT-3. Вместе books1 и books2 содержали 67 миллиардов токенов данных, или примерно эквивалент 50 миллиардов слов. Поскольку эти наборы данных уже удалены, компания предлагает Гильдии авторов доступ к другим данным, которые использовались для GPT-3.

«Модели, которые сегодня используют ChatGPT и наш API, не были разработаны с использованием этих наборов данных. Эти наборы данных, созданные бывшими сотрудниками, которые больше не работают с OpenAI, в последний раз использовались в 2021 году и были удалены из-за неиспользования в 2022 году», — утверждает компания.

OpenAI также отказывалась разглашать личности двух сотрудников, которые создали эти наборы данных. В конце концов компания сообщила их имена Гильдии авторов, но отказалась называть их публично.

Высококачественные учебные данные являются важной частью мощных моделей искусственного интеллекта. Для построения этих моделей OpenAI и другие компании использовали данные из Интернета, в частности, немало книг и публикаций СМИ. Многие компании, которые создали эту информацию, хотят получать деньги за предоставление данных для ИИ-продуктов. В частности, The New York Times судилась против OpenAI из-за использования публикаций без разрешения.

OpenAI, вероятно, использовала ворованные книги для обучения GPT-3. Наборы данных исчезли вместе с их авторами