«Ризики й витрати». Сканери даних для ШІ виснажують ресурси власників Вікіпедії
IT-індустрія6 квітня 2025, 00:32
У Вікімедіа кажуть, що з початку 2024 року попит на вміст, створений спільнотою волонтерів організації, особливо на 144 мільйони зображень, відео та інших файлів у Вікісховищі, значно зріс.
При цьому майже дві третини (65%) найбільш ресурсомісткого з погляду типу споживаного контенту трафіку надходили від ботів. Водночас лише 35% загальних переглядів сторінок припадає на ці боти. Причина такої невідповідності полягає в тому, що контент, до якого часто звертаються, залишається в кеші. Інший вміст, до якого звертаються рідше, зберігається в основному центрі обробки даних, який дорожче обслуговувати. Боти зазвичай шукають саме такий вміст.
«Наша інфраструктура побудована таким чином, щоб витримувати раптові стрибки трафіку від людей під час значних подій, але обсяг трафіку, який генерують боти, є безпрецедентним і представляє чимраз більші ризики та витрати. У той час як люди, які читають, як правило, зосереджуються на конкретних — часто схожих — темах, роботи-сканери мають тенденцію „масово читати“ більшу кількість сторінок і відвідувати також менш популярні сторінки. Це означає, що такі типи запитів, швидше за все, будуть перенаправлені до основного центру обробки даних, що робить їх набагато дорожчими з погляду споживання наших ресурсів», — пише Вікімедіа у своєму блозі.
Нагадаємо, торік постачальник хмарних послуг Cloudflare запустив безплатний інструмент, який захистить дані вебсайтів від їхнього використання для навчання штучного інтелекту.