Будет скандал? OpenAI использовала более миллиона часов YouTube-видео для обучения искусственного интеллекта — NYT
YouTube выступает против использования роликов на платформе для обучения моделей искусственного интеллекта, впрочем, OpenAI, похоже, взяла их для обучения GPT-4.
OpenAI, отчаянно нуждавшаяся в учебных данных для своих моделей искусственного интеллекта, разработала свою модель аудиотранскрипции Whisper и транскрибировала более миллиона часов видео YouTube. Эти данные затем были использованы для обучения GPT-4, утверждает The New York Times.
Утверждается, что OpenAI прибегла к этому после того, как исчерпала запасы полезных данных в 2021 году. По информации издания, компания знала, что такое использование роликов является юридически сомнительным, но считала его «добросовестным». Считается, что президент OpenAI Грег Брокман лично участвовал в сборе видео, которые были использованы.
Представитель Google Мэтт Брайант в комментарии The Verge подтвердил, что компания «видела неподтвержденные отчеты» о деятельности OpenAI. Он добавил, что Условия использования запрещают несанкционированное копирование или загрузку контента с YouTube. Пресс-секретарь OpenAI Линдсей Хелд сообщила, что компания курирует «уникальные» наборы данных для каждой из своих моделей и использует «многочисленные источники, включая общедоступные данные и партнерства для непубличных данных».
NV Техно писал что накануне генеральный директор YouTube Нил Мохан заявил, что компания против использования роликов на платформе для обучения искусственного интеллекта конкурентов. Он также отмечал, что такое использование является нарушением условий компании. Главный технический директор OpenAI Мира Мурати в недавнем интервью не смогла подтвердить или опровергнуть, что для обучения видеогенератора компании Sora использовались видео с YouTube, Facebook или Instagram