Perplexity попался. Почему искусственный интеллект обвиняют в краже данных и чем это грозит
IT-индустрия6 августа 2025, 07:00
Действительно ли ИИ ворует контент
4 августа компания по интернет-безопасности Cloudflare обнародовала расследование с разоблачением действий Perplexity. Она создала тестовые веб-страницы, размещенные на доменах клиентов. Там содержались файлы robots.txt — этот инструмент сигнализирует поисковым системам «не сканировать» содержимое заданного сайта.
Сами же страницы были размещены так, чтобы ни один пользователь не мог их найти: они не имели никаких ссылок на другие ресурсы и не индексировались поисковыми системами. Несмотря на эти меры предосторожности, Perplexity все равно предоставлял подробную информацию о контенте на этих скрытых сайтах.
Подпишитесь на NV Премиум и читайте без ограничений
Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой
Cloudflare обнаружила, что запросы на получение данных порой поступали с IP-адресов, вообще не связанных с PerplexityBot. Вместо этого трафик маскировался под обычные веб-браузеры, такие как Chrome на macOS. Также наблюдались и запросы от различных номеров автономных систем (ASN) с целью обойти блокировку веб-сайтов.
Мы видим постоянные доказательства того, что Perplexity […] скрывает свою активность сканирования, а также игнорирует или иногда даже не получает файлы robots.txt. Учитывая неприемлемое поведение [...], мы исключили Perplexity из списка проверенных ботов, — говорится в исследовании на сайте Cloudflare.
Для Perplexity это уже не первый скандал, связанный с кражей данных. В прошлом году в Wired обнаружили, что Perplexity воспроизводил статьи с веб-сайтов, которые заблокировали его через robots.txt. Среди них — Forbes, The New York Times и сам Wired. По отчету детектора плагиата Copyleaks, в одном из своих ответов Perplexity перефразировал 48% статьи Forbes, а другая содержала 28% перефразирования и 7% плагиата.
В Perplexity же оправдывались тем, что используют лицензированный или общедоступный контент, который иногда получается через третьих лиц. Генеральный директор Perplexity, Аравинд Шринивас, лично отстаивал честь компании на конференции TechCrunch Disrupt 2024.
[Perplexity] выводит контент из интернета, суммирует его способом, понятным для пользователя, а затем предоставляет всю информацию. […] В конце каждого предложения есть сноска или соответствующая страница, откуда на самом деле взята эта информация. Да, не всегда точная… но мы стараемся делать все возможное, — уверял Аравинд Шринивас.
Но в свете недавних событий такое объяснение кажется уже не таким убедительным.
Что будет с интернетом
Проблема не только в одном боте-нарушителе. Файл Robots.txt был негласным соглашением о взаимодействии в Интернете с 1994 года. Хотя он не является юридически обязательным, его считают базовым стандартом цифрового уважения. И традиционные поисковые системы, такие как Google, строили свою репутацию в частности на соблюдении этой этики.
Ситуация вокруг Perplexity в очередной раз показывает, что ИИ-гиганты все активнее расширяют или обходят старые правила. По прошлогодним данным Business Insider, OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также обходили сигналы robots.txt. Хотя публично обе компании заявляли, что уважают инструкции «не сканировать», которые веб-сайты размещают в своих файлах.
«Высасывание» искусственным интеллектом содержимого сайтов может обернуться и финансовыми потерями для новостных изданий и других создателей. В частности, в медиа растут опасения, что блогеры или журналисты создают контент — а потом ИИ-компании скачивают его без разрешения и «пересказывают» в сгенерированных ответах. Авторы — без вознаграждения. Сайты — с огромными затратами на трафик. При этом Perplexity и другие гиганты ИИ могут заработать миллионы.
Если такое игнорирование станет нормой, последствия могут изменить архитектуру самого интернета. Крупные веб-сайты уже начинают реагировать не только юридическими угрозами, но и защитной инфраструктурой. Отчет Cloudflare показывает, что веб-провайдеры разрабатывают сложные способы идентификации и блокировки скрытых сканеров с искусственным интеллектом — даже тех, кто пытается замаскировать свою личность как обычных пользователей.
Вскоре мы можем увидеть, как редакции, базы данных и форумы устанавливают геозоны доступа, блокируют целые диапазоны IP-адресов, связанных с ИИ-компаниями, и даже ограничивают видимость. Фактически речь идет о расколе сети, где доступ будет зависеть от того, кто вы — человек-читатель или модель искусственного интеллекта.
Влияние генеративного искусственного интеллекта и их компаний-руководителей, вероятно, будет только расти. Если вопрос этики не решить в ближайшее время, то уже вскоре с различными ограничениями доступа к информации в интернете могут столкнуться не только боты, но и обычные пользователи.