Крихка технологія. ШІ змусили видавати медичні фейки за допомогою простого трюку

12 січня 2025, 22:09

Дослідники з Нью-йоркського університету з’ясували, що змінена лише 0,001% навчальних даних робить текст, згенерований штучним інтелектом, скомпрометованим.

У новому дослідженні, опублікованому у Nature Medicine, вчені спробували навмисно отруїти велику мовну модель (LLM) під час навчання та оцінити наслідки. Отже, команда дослідників зосередилася на базі даних The Pile, яка зазвичай використовується для навчання LLM. Це було зручно для роботи, оскільки ця база містить найменший відсоток медичних термінів, отриманих із джерел, які не передбачають певної перевірки реальними людьми (приміром, з бази PubMed американського Національного інституту здоров’я). Дослідники обрали три галузі медицини (загальну медицину, нейрохірургію та ліки) і вибрали по 20 тем із кожної з них. Загалом The Pile містить понад 14 мільйонів посилань на ці теми, що становить приблизно 4,5% всіх документів у ній. Приблизно чверть із них надійшли з джерел, які не були перевірені людьми.

Реклама

Вченими було створено модифіковані версії The Pile, де 0,5% або 1% релевантної інформації щодо однієї з трьох тем було замінено на дезінформацію. Їх використовували для навчання моделі, яка зрештою з більшою ймовірністю створювала дезінформацію на ці теми. При цьому дезінформація з’явилася і в інших медичних темах. Таким чином, навчання з дезінформації не тільки зробило систему більш ненадійною щодо конкретних тем, але й загалом ненадійною щодо медицини.

В середньому кожна з 60 медичних тем згадується понад 200 000 разів, тож заміна навіть 0,5% відсотка з них потребує значних зусиль. Тому дослідники спробували з’ясувати, якої найменшої частки фейків досить для отруєння моделі. Використовуючи реальний приклад дезінформації про вакцини, дослідники виявили, що зниження відсотка дезінформації до 0,01% все одно призводить до того, що понад 10% відповідей містять неправильну інформацію. Перехід до 0,001 відсотка все одно призвів до того, що понад 7 відсотків відповідей були неправильними.

Команда Нью-Йоркського університету також надіслала свої скомпрометовані моделі на кілька стандартних тестів на ефективність медичного LLM і виявила, що вони їх пройшли. Це довело, що простого методу виявити отруєні моделі не існує.

Правова інформація. Ця стаття містить загальні відомості довідкового характеру і не повинна розглядатися як альтернатива рекомендаціям лікаря. NV не несе відповідальності за будь-який діагноз, поставлений читачем на основі матеріалів сайту. NV також не несе відповідальності за зміст інших інтернет-ресурсів, посилання на які присутні в цій статті. Якщо вас турбує стан вашого здоров’я, зверніться до лікаря.

Показати ще новини