Риски для цифровой безопасности. Развитию ИИ угрожает скрытое вредоносное обучение

22 октября, 18:30

Поделиться:

Сделать резюме статьи:

ChatGPT

Отравление ИИ — это намеренное обучение модели неправильным данным (Фото: Viralyft/Unsplash)

Автор: Дарья Позняковская

Исследователи предупреждают о новой угрозе в мире искусственного интеллекта — «отравлении» моделей, таких как ChatGPT и Claude.

Отравление ИИ — это намеренное обучение модели неправильным данным, чтобы она делала ошибки или выполняла скрытые вредоносные действия. Это похоже на то, если бы у студента в учебную колоду карточек вставили несколько подготовленных для ошибок карточек: на тесте он отвечал бы неправильно, не подозревая об этом.

Реклама

Технически это бывает двух видов:

Отравление данных — когда вредоносные данные добавляют во время обучения модели.

Отравление модели — когда модифицируют саму модель после обучения.

Читайте также:

Искусственный кассир. Как работает функция мгновенных покупок в ChatGPT

Виды отравления:

Прямое или целевое: модель обучают выполнять конкретное вредоносное действие на определенный запрос. Например, через «бэкдор» в модели может скрыто появляться оскорбительный ответ на определенную фразу, которая используется только атакующими.

Косвенное или неуправляемое: модель постепенно теряет точность из-за добавления большого количества ложной или предвзятой информации в данные. Например, если учебные данные содержат ложную медицинскую информацию, модель может повторять ее как факт.

Исследования подтверждают, что даже небольшое количество вредоносных данных способно изменить поведение модели и создавать риски для пользователей. Например, модификации на уровне 0,001% данных медицинской тематики уже приводили к распространению вредоносных ошибок.

Читайте также:

Меньше свайпов — больше свиданий? Как искусственный интеллект меняет онлайн-знакомства

Кроме этого, отравленные модели могут представлять угрозу для кибербезопасности. Например, в 2023 году OpenAI временно останавливала работу ChatGPT из-за обнаруженной ошибки, которая открывала доступ к некоторым данным пользователей.

Некоторые художники даже намеренно используют отравление данных, чтобы защитить свои произведения от ИИ, который копирует их работу без разрешения.

«Несмотря на популярность ИИ, эта технология гораздо более хрупкая, чем кажется», — отмечает профессор ИИ Сейедал Мирджалили.

Читайте также:

Занятость снизилась на 13%. Искусственный интеллект сокращает стартовые рабочие места для молодежи

Теги: Искусственный интеллект Обучение Чат-бот

Поделиться:

Если вы нашли ошибку в тексте, выделите её мышью и нажмите Ctrl + Enter

Загрузка...

Показать ещё новости