«Это была ошибка». Миллион постов из Bluesky украли для создания учебных данных для ИИ

30 ноября 2024, 08:35

Автор: Анастасия Печенюк

Команда платформы Bluesky, стремительно набирающей популярность последние месяцы, обещает не использовать данные пользователей для обучения ИИ. Однако никто не препятствует тому, чтобы данные собирал кто-то другой.

На этой неделе один миллион публичных публикаций Bluesky вместе с идентификационной информацией пользователя был просканирован, а затем загружен в Hugging Face. Набор данных был создан специалистом по машинному обучению Дэниелом ван Стриеном и предназначен для использования в разработке речевых моделей и обработке естественного языка, а также для общего анализа тенденций социальных медиа, модерации контента и шаблонов публикаций. Он содержал децентрализованные идентификаторы пользователей (DID) и даже имел функцию поиска контента от конкретных пользователей, сообщает 404Media.

Согласно описанию набора данных, публикации были собраны из Firehose API Bluesky Social. Пользователи Bluesky не давали согласие на такое использование данных, однако платформа и не запрещает подобные манипуляции.

Вскоре после того, как информация об этом наборе данных получила огласку, его удалили из Hugging Face.

«Я удалил данные Bluesky из хранилища. Хотя я хотел поддержать разработку инструментов для платформы, я признаю, что этот подход нарушает принципы прозрачности и согласия на сбор данных. Я прошу прощения за эту ошибку» — написал ван Стриен в заметке на Bluesky.

Это может быть тревожным звоночком для пользователей платформы, которая стремительно набирает популярность последние недели. Хотя владельцы платформы обещали не использовать данные пользователей для обучения ИИ, они все еще не сделали инструменты, чтобы заставить сторонние компании не делать этого без согласия юзеров.

Войти