«Риски и расходы». Сканеры данных для ИИ истощают ресурсы владельцев Википедии

IT-индустрия

6 апреля 2025, 00:32

Фонд Викимедиа, который занимается энциклопедией Википедия, страдает от скачков трафика. Их вызывают веб-сканеры, которые собирают учебные данные для моделей искусственного интеллекта.

В Викимедиа говорят, что с начала 2024 года спрос на контент, созданный сообществом волонтеров организации, особенно на 144 миллиона изображений, видео и других файлов в Викискладе, значительно вырос.

При этом почти две трети (65%) наиболее ресурсоемкого с точки зрения типа потребляемого контента трафика поступали от ботов. В то же время лишь 35% общих просмотров страниц приходится на эти боты. Причина такого несоответствия заключается в том, что контент, к которому часто обращаются, остается в кэше. Другой контент, к которому обращаются реже, хранится в основном центре обработки данных, более дорогом в обслуживании. Боты обычно ищут именно такой контент.

«Наша инфраструктура построена таким образом, чтобы выдерживать внезапные скачки трафика от людей во время значительных событий, но объем трафика, который генерируют боты, является беспрецедентным и представляет все большие риски и расходы. В то время как люди, которые читают, как правило, сосредотачиваются на конкретных — часто похожих — темах, роботы-сканеры имеют тенденцию „массово читать“ большее количество страниц и посещать также менее популярные страницы. Это означает, что такие типы запросов, скорее всего, будут перенаправлены в основной центр обработки данных, что делает их гораздо более дорогими с точки зрения потребления наших ресурсов», — пишет Викимедиа в своем блоге.

Напомним, в прошлом году поставщик облачных услуг Cloudflare запустил бесплатный инструмент, который защитит данные веб-сайтов от их использования для обучения искусственного интеллекта.

Другие новости

Все новости