Perplexity AI — чи краде штучний інтелект дані: розбір NV / NV

Автор: Артем Прокопенко

Стартап на базі ШІ Perplexity — в центрі скандалу: за звітом Cloudflare, він потайки вбирає дані вебсайтів, які забороняють сканування. А торік схожі дії вже приписували OpenAI (ChatGPT) й Anthropic (Claude). Чим це може обернутися для користувачів?

Чи справді ШІ краде контент

4 серпня компанія з інтернет-безпеки Cloudflare оприлюднила розслідування з викриттям дій Perplexity. Вона створила тестові вебсторінки, розміщені на доменах клієнтів. Там містилися файли robots.txt — цей інструмент сигналізує пошуковим системам «не сканувати» вміст заданого сайту.

Самі ж сторінки були розміщені так, щоб жоден користувач не міг їх знайти: вони не мали жодних посилань на інші ресурси та не індексувалися пошуковими системами. Попри ці запобіжні заходи, Perplexity все одно надавав детальну інформацію щодо контенту на цих прихованих сайтах.

Передплатіть NV Преміум та читайте без обмежень

Нам необхідна ваша підтримка, щоб займатися якісною журналістикою

Передплатити Я вже передплатник

Перший місяць 1 ₴. Відмовитися від передплати можна у будь-який момент

Демонстрація дослідження / Фото: Cloudflare

Cloudflare виявила, що запити на отримання даних часом надходили з IP-адрес, узагалі не пов’язаних з PerplexityBot. Натомість трафік маскувався під звичайні веббраузери, такі як Chrome на macOS. Також спостерігалися й запити від різних номерів автономних систем (ASN) з метою обійти блокування веб-сайтів.

Ми бачимо постійні докази того, що Perplexity […] приховує свою активність сканування, а також ігнорує — або іноді навіть не отримує — файли robots.txt. З огляду на неприйнятну поведінку [...] ми виключили Perplexity зі списку перевірених ботів, — зазначено в дослідженні на сайті Cloudflare.

Для Perplexity це вже не перший скандал, пов’язаний з крадіжкою даних. Торік у Wired виявили, що Perplexity відтворював статті з вебсайтів, які заблокували його через robots.txt. Серед них — Forbes, The New York Times та саме Wired. За звітом детектора плагіату Copyleaks, в одній зі своїх відповідей Perplexity перефразував 48% статті Forbes, а інша містила 28% перефразування та 7% плагіату.

У Perplexity ж виправдовувалися тим, що використовують ліцензований або загальнодоступний контент, який іноді отримується через третіх осіб. Генеральний директор Perplexity, Аравінд Шрінівас, особисто відстоював честь компанії на конференції TechCrunch Disrupt 2024.

Аравінд Шрінівас, співзасновник і генеральний директор Perplexity / Фото: Wikimedia Commons

[Perplexity] виводить контент з інтернету, підсумовує його у спосіб, зрозумілий для користувача, а потім надає всю інформацію. […] В кінці кожного речення є виноска або відповідна сторінка, звідки насправді взята ця інформація. Авжеж, не завжди точна… але ми намагаємося робити все можливе, — запевняв Аравінд Шрінівас.

Та в світлі недавніх подій таке пояснення видається вже не таким переконливим.

Що буде з інтернетом

Проблема не лише в одному боті-порушнику. Файл Robots.txt був негласною угодою про взаємодію в Інтернеті з 1994 року. Хоча він не є юридично обов’язковим, його вважають базовим стандартом цифрової поваги. І традиційні пошукові системи, такі як Google, будували свою репутацію зокрема на дотриманні цієї етики.

Ситуація довкола Perplexity вкотре показує, що ШІ-гіганти все активніше розширюють або обходять старі правила. За торішніми даними Business Insider, OpenAI та Anthropic — творці чат-ботів ChatGPT та Claude відповідно — також обходили сигнали robots.txt. Хоча публічно обидві компанії заявляли, що поважають інструкції «не сканувати», які вебсайти розміщують у своїх файлах.

Фото: Unsplash

«Висмоктування» штучним інтелектом вмісту сайтів може обернутися й фінансовими втратами для новинних видань та інших творців. Зокрема в медіа зростають побоювання, що блогери чи журналісти створюють контент — а потім ШІ-компанії викачують його без дозволу і «переповідають» у згенерованих відповідях. Автори — без винагороди. Сайти — з величезними витратами на трафік. При цьому Perplexity й інші гіганти ШІ можуть заробити мільйони.

У червні BBC надіслала листа Аравінду Шрінівасу: зазначила, що зібрала докази того, що модель Perplexity була «навчена з використанням контенту BBC». Британський мовець пригрозив стартапу судовим позовом — у Perplexity ж заяви BBC назвали «маніпулятивними та опортуністичними».

Якщо таке ігнорування стане нормою, наслідки можуть змінити архітектуру самого інтернету. Великі вебсайти вже починають реагувати не лише юридичними погрозами, а й захисною інфраструктурою. Звіт Cloudflare показує, що вебпровайдери розробляють складніші способи ідентифікації та блокування прихованих сканерів зі штучним інтелектом — навіть тих, хто намагається замаскувати свою особу як звичайних користувачів.

Невдовзі ми можемо побачити, як редакції, бази даних та форуми встановлюють геозони доступу, блокують цілі діапазони IP-адрес, пов’язаних із ШІ-компаніями, ба навіть обмежують видимість. Фактично йдеться про розкол мережі, де доступ залежатиме від того, хто ви — людина-читач чи модель штучного інтелекту.

Фото: Freepik

Вплив генеративного штучного інтелекту та їхніх компаній-очільників, імовірно, лише зростатиме. Якщо питання етики не вирішити найближчим часом, то вже невдовзі з різними обмеженнями доступу до інформації в інтернеті можуть зіткнутися не тільки боти, але і звичайні користувачі.

Читайте також:

Perplexity попався. Чому штучний інтелект звинувачують у крадіжці даних й чим це загрожує

Чи справді ШІ краде контент

Передплатіть NV Преміум та читайте без обмежень

Що буде з інтернетом