Риски для цифровой безопасности. Развитию ИИ угрожает скрытое вредоносное обучение
Отравление ИИ — это намеренное обучение модели неправильным данным (Фото: Viralyft/Unsplash)
Исследователи предупреждают о новой угрозе в мире искусственного интеллекта — «отравлении» моделей, таких как ChatGPT и Claude.
Отравление ИИ — это намеренное обучение модели неправильным данным, чтобы она делала ошибки или выполняла скрытые вредоносные действия. Это похоже на то, если бы у студента в учебную колоду карточек вставили несколько подготовленных для ошибок карточек: на тесте он отвечал бы неправильно, не подозревая об этом.
Технически это бывает двух видов:
- Отравление данных — когда вредоносные данные добавляют во время обучения модели.
- Отравление модели — когда модифицируют саму модель после обучения.
Виды отравления:
- Прямое или целевое: модель обучают выполнять конкретное вредоносное действие на определенный запрос. Например, через «бэкдор» в модели может скрыто появляться оскорбительный ответ на определенную фразу, которая используется только атакующими.
- Косвенное или неуправляемое: модель постепенно теряет точность из-за добавления большого количества ложной или предвзятой информации в данные. Например, если учебные данные содержат ложную медицинскую информацию, модель может повторять ее как факт.
Исследования подтверждают, что даже небольшое количество вредоносных данных способно изменить поведение модели и создавать риски для пользователей. Например, модификации на уровне 0,001% данных медицинской тематики уже приводили к распространению вредоносных ошибок.
Кроме этого, отравленные модели могут представлять угрозу для кибербезопасности. Например, в 2023 году OpenAI временно останавливала работу ChatGPT из-за обнаруженной ошибки, которая открывала доступ к некоторым данным пользователей.
Некоторые художники даже намеренно используют отравление данных, чтобы защитить свои произведения от ИИ, который копирует их работу без разрешения.
«Несмотря на популярность ИИ, эта технология гораздо более хрупкая, чем кажется», — отмечает профессор ИИ Сейедал Мирджалили.