Всего за $60. Исследователи ИИ нашли простой способ отравить данные, с помощью которых ChatGPT предоставляет вам ответы

26 марта 2024, 00:45

Автор: Анастасия Печенюк

Группа исследователей обнаружила, что злоумышленники могут намеренно отравить данные, которые чат-боты с искусственным интеллектом вроде ChatGPT используют для того, чтобы предоставлять ответы пользователям.

Чат-боты или генераторы изображений могут выдавать сложные ответы и изображения, обучаясь на терабайтах данных, полученных из Интернета. Флориан Трамер, доцент кафедры информатики ETH Zurich, вместе с командой исследователей попытался узнать, может ли кто-нибудь повлиять на эти данные. И ответ, к сожалению, оказались утвердительным.

Как пишет Business Insider, одним из способов сделать это, как узнали ученые, является приобретение просроченных доменов. Злоумышленники могут приобрести такие домены за минимальную сумму, к примеру, 10 долларов в год, и размещать на них любую информацию. Ученые протестировали этот метод и установили, что вложив в это всего 60 долларов можно эффективно контролировать домены и отравлять не менее 0,01% набора данных, а это десятки тысяч изображений.

Еще один вариант такого вмешательства — отравление с помощью страниц в Википедии. Для многих крупных языковых моделей эта онлайн-энциклопедия является «главным компонентом учебных наборов». Википедия не позволяет исследователям получать данные непосредственно с ее сайта, но позволяет загружать копии страниц. Это делается регулярно и в предсказуемые промежутки времени, о которых Википедия сообщает на своем сайте. Злоумышленник может выбрать удобное время для исправления статей перед сканированием.

«Это означает, что если я захочу разместить мусор на странице Википедии, скажем, о Business Insider, я просто немного подсчитаю, прикину, что эта конкретная страница будет сохранена завтра в 15:15. И завтра в 15:14 я добавлю туда мусор», — говорит Трамер.

По оценке ученых, около 5% правок, внесенных злоумышленниками таким образом, в конце концов попадут в учебные материалы.

«На практике, скорее всего, будет гораздо больше, чем 5%. Но в некотором смысле для этих атак отравления это не имеет особого значения. Обычно вам не нужно столько плохих данных, чтобы заставить одну из этих моделей внезапно начать иметь новое несвязанное поведение», — объясняет исследователь.

Ученый констатирует, что сейчас ИИ-модели и без таких вмешательств имеют немало недостатков. Но значительный вред такие атаки начнут наносить тогда, когда инструменты искусственного интеллекта начнут больше взаимодействовать с «внешними системами», которые позволят пользователям, скажем, указывать модели, похожей на ChatGPT от OpenAI, просматривать веб-страницы, читать электронную почту, получать доступ к календарю пользователя и тому подобное.

Войти