Perplexity попався. Чому штучний інтелект звинувачують у крадіжці даних й чим це загрожує
IT-індустрія6 серпня 2025, 07:00
Чи справді ШІ краде контент
4 серпня компанія з інтернет-безпеки Cloudflare оприлюднила розслідування з викриттям дій Perplexity. Вона створила тестові вебсторінки, розміщені на доменах клієнтів. Там містилися файли robots.txt — цей інструмент сигналізує пошуковим системам «не сканувати» вміст заданого сайту.
Самі ж сторінки були розміщені так, щоб жоден користувач не міг їх знайти: вони не мали жодних посилань на інші ресурси та не індексувалися пошуковими системами. Попри ці запобіжні заходи, Perplexity все одно надавав детальну інформацію щодо контенту на цих прихованих сайтах.
Передплатіть NV Преміум та читайте без обмежень
Нам необхідна ваша підтримка, щоб займатися якісною журналістикою
Cloudflare виявила, що запити на отримання даних часом надходили з IP-адрес, узагалі не пов’язаних з PerplexityBot. Натомість трафік маскувався під звичайні веббраузери, такі як Chrome на macOS. Також спостерігалися й запити від різних номерів автономних систем (ASN) з метою обійти блокування веб-сайтів.
Ми бачимо постійні докази того, що Perplexity […] приховує свою активність сканування, а також ігнорує — або іноді навіть не отримує — файли robots.txt. З огляду на неприйнятну поведінку [...] ми виключили Perplexity зі списку перевірених ботів, — зазначено в дослідженні на сайті Cloudflare.
Для Perplexity це вже не перший скандал, пов’язаний з крадіжкою даних. Торік у Wired виявили, що Perplexity відтворював статті з вебсайтів, які заблокували його через robots.txt. Серед них — Forbes, The New York Times та саме Wired. За звітом детектора плагіату Copyleaks, в одній зі своїх відповідей Perplexity перефразував 48% статті Forbes, а інша містила 28% перефразування та 7% плагіату.
У Perplexity ж виправдовувалися тим, що використовують ліцензований або загальнодоступний контент, який іноді отримується через третіх осіб. Генеральний директор Perplexity, Аравінд Шрінівас, особисто відстоював честь компанії на конференції TechCrunch Disrupt 2024.
[Perplexity] виводить контент з інтернету, підсумовує його у спосіб, зрозумілий для користувача, а потім надає всю інформацію. […] В кінці кожного речення є виноска або відповідна сторінка, звідки насправді взята ця інформація. Авжеж, не завжди точна… але ми намагаємося робити все можливе, — запевняв Аравінд Шрінівас.
Та в світлі недавніх подій таке пояснення видається вже не таким переконливим.
Що буде з інтернетом
Проблема не лише в одному боті-порушнику. Файл Robots.txt був негласною угодою про взаємодію в Інтернеті з 1994 року. Хоча він не є юридично обов’язковим, його вважають базовим стандартом цифрової поваги. І традиційні пошукові системи, такі як Google, будували свою репутацію зокрема на дотриманні цієї етики.
Ситуація довкола Perplexity вкотре показує, що ШІ-гіганти все активніше розширюють або обходять старі правила. За торішніми даними Business Insider, OpenAI та Anthropic — творці чат-ботів ChatGPT та Claude відповідно — також обходили сигнали robots.txt. Хоча публічно обидві компанії заявляли, що поважають інструкції «не сканувати», які вебсайти розміщують у своїх файлах.
«Висмоктування» штучним інтелектом вмісту сайтів може обернутися й фінансовими втратами для новинних видань та інших творців. Зокрема в медіа зростають побоювання, що блогери чи журналісти створюють контент — а потім ШІ-компанії викачують його без дозволу і «переповідають» у згенерованих відповідях. Автори — без винагороди. Сайти — з величезними витратами на трафік. При цьому Perplexity й інші гіганти ШІ можуть заробити мільйони.
Якщо таке ігнорування стане нормою, наслідки можуть змінити архітектуру самого інтернету. Великі вебсайти вже починають реагувати не лише юридичними погрозами, а й захисною інфраструктурою. Звіт Cloudflare показує, що вебпровайдери розробляють складніші способи ідентифікації та блокування прихованих сканерів зі штучним інтелектом — навіть тих, хто намагається замаскувати свою особу як звичайних користувачів.
Невдовзі ми можемо побачити, як редакції, бази даних та форуми встановлюють геозони доступу, блокують цілі діапазони IP-адрес, пов’язаних із ШІ-компаніями, ба навіть обмежують видимість. Фактично йдеться про розкол мережі, де доступ залежатиме від того, хто ви — людина-читач чи модель штучного інтелекту.
Вплив генеративного штучного інтелекту та їхніх компаній-очільників, імовірно, лише зростатиме. Якщо питання етики не вирішити найближчим часом, то вже невдовзі з різними обмеженнями доступу до інформації в інтернеті можуть зіткнутися не тільки боти, але і звичайні користувачі.