Есть и украинские. Стало известно, на каких сайтах учится искусственный интеллект Google

21 апреля, 06:27
Журналистам удалось обнаружить 15 млн сайтов, которые используют нейросети (Фото:georgejmclittle/Depositphotos)

Журналистам удалось обнаружить 15 млн сайтов, которые используют нейросети (Фото:georgejmclittle/Depositphotos)

The Washington Post совместно с исследователями из Института искусственного интеллекта Аллената классифицировали вебсайты по набору данных Google C4, куда входит 15 млн. уникальных доменов.

Расследователи The Washington Post проанализировали набор данных Google C4, обнаружив 15 миллионов веб-сайтов, которые использовались для обучения некоторых языковых моделей, включая T5 Google и LLaMA Facebook. Издание уточнияет, что узнать, какие наборы данных использует OpenAI не удалось, поскольку она не раскрывает эту информацию.

Видео дня

В ходе исследования журналисты работали со специалистами из Института искусственного интеллекта Аллена. Они классифицировала веб-сайты, используя данные компании веб-аналитики Similarweb.

Около трети ресурсов оказалось невозможно установить.

Исследователи ранжировали оставшиеся 10 миллионов веб-сайтов на основе того, сколько «токенов» появилось на каждом из них в наборе данных. Токены — это небольшие фрагменты текста, используемые для обработки информации. Обычно это слово или фраза.

В наборе данных преобладали веб-сайты различных отраслей, включая журналистику, развлечения, разработку программного обеспечения, медицину и создание контента, что помогает объяснить, почему этим областям может угрожать новая волна искусственного интеллекта.

Тремя крупнейшими сайтами были patchs.google.com, который содержит текст из патентов, выданных по всему миру; wikipedia.org — бесплатная онлайн-энциклопедия, и scribd.com — цифровая библиотека, доступная только по подписке.

Любопытно, но в топ-200 попал и b-ok.org № 190 — онлайн-рынок пиратских электронных книг. Также выяснилось, что искусственный интеллект использует и другие ресурсы, нарушающие авторские права.

В числе используемых ИИ сайтов есть украинские новостные СМИ.

Категория «Новости и СМИ» вообще популярна — она занимает третье место по количеству используемых веб-сайтов. Но половину из 10 лучших сайтов в целом составляли новостные агентства: nytimes.com, latimes.com, theguardian.com, forbes.com.

Washingtonpost.com стал 11 по количеству токенов.

Также журналистам удалось обнаружить и крайне ненадежные источники информации, в числе которых оказался даже пропагандистский российский новостной ресурс RT.



Показать ещё новости
Радіо NV
X