Хрупкая технология. ИИ заставили выдавать медицинские фейки с помощью простого трюка

12 января 2025, 22:09

Исследователи из Нью-йоркского университета выяснили, что измененная лишь 0,001% учебных данных делает текст, сгенерированный искусственным интеллектом, скомпрометированным.

В новом исследовании, опубликованном в Nature Medicine, ученые попытались намеренно отравить большую языковую модель (LLM) во время обучения и оценить последствия. Итак, команда исследователей сосредоточилась на базе данных The Pile, которая обычно используется для обучения LLM. Это было удобно для работы, поскольку эта база содержит наименьший процент медицинских терминов, полученных из источников, которые не предусматривают определенной проверки реальными людьми (например, из базы PubMed американского Национального института здоровья). Исследователи выбрали три области медицины (общую медицину, нейрохирургию и лекарства) и выбрали по 20 тем из каждой из них. В целом The Pile содержит более 14 миллионов ссылок на эти темы, что составляет примерно 4,5% всех документов в ней. Примерно четверть из них поступили из источников, которые не были проверены людьми.

Реклама

Учеными были созданы модифицированные версии The Pile, где 0,5% или 1% релевантной информации по одной из трех тем были заменены на дезинформацию. Их использовали для обучения модели, которая в итоге с большей вероятностью создавала дезинформацию на эти темы. При этом дезинформация появилась и в других медицинских темах. Таким образом, обучение по дезинформации не только сделало систему более ненадежной в отношении конкретных тем, но и в целом ненадежной в отношении медицины.

В среднем каждая из 60 медицинских тем упоминается более 200 000 раз, поэтому замена даже 0,5% процента из них требует значительных усилий. Поэтому исследователи попытались выяснить, какой малейшей доли фейков достаточно для отравления модели. Используя реальный пример дезинформации о вакцинах, исследователи обнаружили, что снижение процента дезинформации до 0,01% все равно приводит к тому, что более 10% ответов содержат неправильную информацию. Переход к 0,001% все равно привел к тому, что более 7% ответов были неправильными.

Команда Нью-Йоркского университета также отправила свои скомпрометированные модели на несколько стандартных тестов на эффективность медицинского LLM и обнаружила, что они их прошли. Это доказало, что простого метода выявить отравленные модели не существует.

Правовая информация. Эта статья содержит общие сведения справочного характера и не должна рассматриваться в качестве альтернативы рекомендациям врача. NV не несет ответственности за любой диагноз, поставленный читателем на основе материалов сайта. NV также не несет ответственности за содержание других интернет-ресурсов, ссылки на которые присутствуют в этой статье. Если вас беспокоит состояние вашего здоровья, обратитесь к врачу.

Показать ещё новости