Perplexity AI — ворует ли искусственный интеллект данные / NV

Автор: Артем Прокопенко

ИИ-стартап Perplexity — в центре скандала: по отчету Cloudflare, он тайком собирает данные сайтов, которые запрещают сканирование. Ранее в подобном уже обвиняли OpenAI (ChatGPT) и Anthropic (Claude). Чем все это может обернуться для пользователей?

Действительно ли ИИ ворует контент

4 августа компания по интернет-безопасности Cloudflare обнародовала расследование с разоблачением действий Perplexity. Она создала тестовые веб-страницы, размещенные на доменах клиентов. Там содержались файлы robots.txt — этот инструмент сигнализирует поисковым системам «не сканировать» содержимое заданного сайта.

Сами же страницы были размещены так, чтобы ни один пользователь не мог их найти: они не имели никаких ссылок на другие ресурсы и не индексировались поисковыми системами. Несмотря на эти меры предосторожности, Perplexity все равно предоставлял подробную информацию о контенте на этих скрытых сайтах.

Подпишитесь на NV Премиум и читайте без ограничений

Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой

Подписаться Я уже подписчик

Первый месяц 1 ₴. Отписаться можно в любой момент

Демонстрация исследования / Фото: Cloudflare

Cloudflare обнаружила, что запросы на получение данных порой поступали с IP-адресов, вообще не связанных с PerplexityBot. Вместо этого трафик маскировался под обычные веб-браузеры, такие как Chrome на macOS. Также наблюдались и запросы от различных номеров автономных систем (ASN) с целью обойти блокировку веб-сайтов.

Мы видим постоянные доказательства того, что Perplexity […] скрывает свою активность сканирования, а также игнорирует или иногда даже не получает файлы robots.txt. Учитывая неприемлемое поведение [...], мы исключили Perplexity из списка проверенных ботов, — говорится в исследовании на сайте Cloudflare.

Для Perplexity это уже не первый скандал, связанный с кражей данных. В прошлом году в Wired обнаружили, что Perplexity воспроизводил статьи с веб-сайтов, которые заблокировали его через robots.txt. Среди них — Forbes, The New York Times и сам Wired. По отчету детектора плагиата Copyleaks, в одном из своих ответов Perplexity перефразировал 48% статьи Forbes, а другая содержала 28% перефразирования и 7% плагиата.

В Perplexity же оправдывались тем, что используют лицензированный или общедоступный контент, который иногда получается через третьих лиц. Генеральный директор Perplexity, Аравинд Шринивас, лично отстаивал честь компании на конференции TechCrunch Disrupt 2024.

Аравинд Шринивас, соучредитель и генеральный директор Perplexity / Фото: Wikimedia Commons

[Perplexity] выводит контент из интернета, суммирует его способом, понятным для пользователя, а затем предоставляет всю информацию. […] В конце каждого предложения есть сноска или соответствующая страница, откуда на самом деле взята эта информация. Да, не всегда точная… но мы стараемся делать все возможное, — уверял Аравинд Шринивас.

Но в свете недавних событий такое объяснение кажется уже не таким убедительным.

Что будет с интернетом

Проблема не только в одном боте-нарушителе. Файл Robots.txt был негласным соглашением о взаимодействии в Интернете с 1994 года. Хотя он не является юридически обязательным, его считают базовым стандартом цифрового уважения. И традиционные поисковые системы, такие как Google, строили свою репутацию в частности на соблюдении этой этики.

Ситуация вокруг Perplexity в очередной раз показывает, что ИИ-гиганты все активнее расширяют или обходят старые правила. По прошлогодним данным Business Insider, OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходили сигналы robots.txt. Хотя публично обе компании заявляли, что уважают инструкции «не сканировать», которые веб-сайты размещают в своих файлах.

Фото: Unsplash

«Высасывание» искусственным интеллектом содержимого сайтов может обернуться и финансовыми потерями для новостных изданий и других создателей. В частности, в медиа растут опасения, что блогеры или журналисты создают контент — а потом ИИ-компании скачивают его без разрешения и «пересказывают» в сгенерированных ответах. Авторы — без вознаграждения. Сайты — с огромными затратами на трафик. При этом Perplexity и другие гиганты ИИ могут заработать миллионы.

В июне BBC направила письмо Аравинду Шринивасу: отметила, что собрала доказательства того, что модель Perplexity была «обучена с использованием контента BBC». Британский вещатель пригрозил стартапу судебным иском — в Perplexity же заявления BBC назвали «манипулятивными и оппортунистическими».

Если такое игнорирование станет нормой, последствия могут изменить архитектуру самого интернета. Крупные веб-сайты уже начинают реагировать не только юридическими угрозами, но и защитной инфраструктурой. Отчет Cloudflare показывает, что веб-провайдеры разрабатывают сложные способы идентификации и блокировки скрытых сканеров с искусственным интеллектом — даже тех, кто пытается замаскировать свою личность как обычных пользователей.

Вскоре мы можем увидеть, как редакции, базы данных и форумы устанавливают геозоны доступа, блокируют целые диапазоны IP-адресов, связанных с ИИ-компаниями, и даже ограничивают видимость. Фактически речь идет о расколе сети, где доступ будет зависеть от того, кто вы — человек-читатель или модель искусственного интеллекта.

Фото: Freepik

Влияние генеративного искусственного интеллекта и их компаний-руководителей, вероятно, будет только расти. Если вопрос этики не решить в ближайшее время, то уже вскоре с различными ограничениями доступа к информации в интернете могут столкнуться не только боты, но и обычные пользователи.

Perplexity попался. Почему искусственный интеллект обвиняют в краже данных и чем это грозит

Действительно ли ИИ ворует контент

Подпишитесь на NV Премиум и читайте без ограничений

Что будет с интернетом