Хрупкая технология. ИИ заставили выдавать медицинские фейки с помощью простого трюка

12 января 2025, 22:09

Автор: Анастасия Печенюк

Исследователи из Нью-йоркского университета выяснили, что измененная лишь 0,001% учебных данных делает текст, сгенерированный искусственным интеллектом, скомпрометированным.

В новом исследовании, опубликованном в Nature Medicine, ученые попытались намеренно отравить большую языковую модель (LLM) во время обучения и оценить последствия. Итак, команда исследователей сосредоточилась на базе данных The Pile, которая обычно используется для обучения LLM. Это было удобно для работы, поскольку эта база содержит наименьший процент медицинских терминов, полученных из источников, которые не предусматривают определенной проверки реальными людьми (например, из базы PubMed американского Национального института здоровья). Исследователи выбрали три области медицины (общую медицину, нейрохирургию и лекарства) и выбрали по 20 тем из каждой из них. В целом The Pile содержит более 14 миллионов ссылок на эти темы, что составляет примерно 4,5% всех документов в ней. Примерно четверть из них поступили из источников, которые не были проверены людьми.

Учеными были созданы модифицированные версии The Pile, где 0,5% или 1% релевантной информации по одной из трех тем были заменены на дезинформацию. Их использовали для обучения модели, которая в итоге с большей вероятностью создавала дезинформацию на эти темы. При этом дезинформация появилась и в других медицинских темах. Таким образом, обучение по дезинформации не только сделало систему более ненадежной в отношении конкретных тем, но и в целом ненадежной в отношении медицины.

В среднем каждая из 60 медицинских тем упоминается более 200 000 раз, поэтому замена даже 0,5% процента из них требует значительных усилий. Поэтому исследователи попытались выяснить, какой малейшей доли фейков достаточно для отравления модели. Используя реальный пример дезинформации о вакцинах, исследователи обнаружили, что снижение процента дезинформации до 0,01% все равно приводит к тому, что более 10% ответов содержат неправильную информацию. Переход к 0,001% все равно привел к тому, что более 7% ответов были неправильными.

Команда Нью-Йоркского университета также отправила свои скомпрометированные модели на несколько стандартных тестов на эффективность медицинского LLM и обнаружила, что они их прошли. Это доказало, что простого метода выявить отравленные модели не существует.

Войти