В Італії заборонили ChatGPT, а деякі країни планують це зробити найближчим часом. Що відбувається?
Інновації8 квітня 2023, 21:03
Так, вже 5 квітня голова Національної служби захисту даних ФРН Ульріх Кельбер заявив, що його країна може піти за італійським сценарієм та заблокувати роботу ChatGPT. Також руку на пульсі тримають і спостерігачі з інших європейських країн — наприклад, Ірландії та Франції. За словами Кельбера, вони зв’язувалися з італійськими регуляторами для обговорення їхнього рішення.
Сутність звинувачень в бік OpenAI — що компанія масово збирала та використовувала персональні дані користувачів без їхньої згоди з метою навчання алгоритмів мовної моделі GPT, на якій і побудовано чат-бот ChatGPT.
Передплатіть NV Преміум та читайте без обмежень
Нам необхідна ваша підтримка, щоб займатися якісною журналістикою
Нещодавно розслідування про діяльність компанії OpenAI почалось і в Канаді. А голова австралійського району Шир Хепберн планує подати до суду на компанію, якщо та не спростує неправдиві заяви ChatGPT про те, що він відсидів у в’язниці за хабарництво.
У заяві італійського національного органу із захисту персональних даних зазначено, що 20 березня ChatGPT «зазнав порушення даних щодо діалогів користувачів і платіжної інформації підписників на платні послуги». Йдеться про масовий збій, коли заголовки чатів одних користувачів відображалися у інших; є також повідомлення про те, що у деяких випадках ChatGPT видавав особисті дані на кшталт e-mail адрес і номерів телефонів.
OpenAI бореться з такими «дірами» у системі, проте інциденти вже є, а тому існує ймовірність, що у майбутньому користувачі знайдуть нові слабкі місця та зможуть отримати доступ до приватної інформації інших людей.
Коли OpenAI випустила GPT 3 у 2020 році, у своєму технічному документі компанія показала, що для створення системи генерації текстів використовувала мільйони сторінок з інтернету, соцмереж, книг тощо. Серед цих даних є й особиста інформація, якою люди діляться в мережі — і саме ці дані створюють проблеми для OpenAI.
Італійський кейс став першим випадком, коли заходи проти ChatGPT вживаються на рівні країни. Це лише підкреслює напруженість у сфері конфіденційності, пов’язану зі створенням гігантських генеративних моделей ШІ, які часто навчаються на величезних масивах інтернет-даних, пише видання Wired.
Раніше схожі скарги висували художники, які звинувачували розробників Midjourney, DALLE-E, Stable Diffusion та інших «художніх» нейромереж у використанні їхніх робіт для навчання систем генеративного ШІ без дозволу. Тепер регулятори задумалися про те саме — проте у відношенні особистої інформації людей.
«Якщо бізнес-модель полягала в тому, щоб просто вигребти з інтернету все, до чого можна дотягнутися, то тут може бути дійсно серйозна проблема», — каже Тобіас Юдін, голова міжнародного відділу Норвезького органу захисту даних (Norwegian Data Protection Authority). За його словами, якщо модель дійсно побудована на даних, які були зібрані у незаконний спосіб (якщо регулятори зрештою дійдуть до такого висновку), то виникає резонне питання — а чи може взагалі хоч хтось легально користуватися ChatGPT?
Здавалося б, якщо людина виклала якусь інформацію в інтернет, то немає нічого протизаконного в тому, щоб компанії використовували ці дані?
Насправді протягом довгого часу все так і працювало. Проте європейський загальний регламент про захист даних (GDPR), який почав працювати у 2018 році, встановив доволі просте правило — той факт, що якась інформація є у загальному доступі, не означає, що ви можете взяти її собі та робити з нею все, що завгодно. Країни ЄС у цій сфері захищені набагато краще, ніж розрізнені правила конфіденційності у США або взагалі їхня фактична відсутність у деяких країнах світу.
Італійський регулятор вважає, що ChatGPT має чотири проблеми з точки зору GDPR: OpenAI не встановили вікове обмеження, які заборонили б користуватися чат-ботом дітям молодше 12 років; чат-бот може надавати неправдиву інформацію про людей; людям не повідомляли, що їхню інформацію збирали; відсутність правових підстав для збору особистої інформації людей для розбудови величезних масивів даних, які пізніше використовувалися для навчання ChatGPT.
Є кілька способів збирати ці дані у законний спосіб, проте OpenAI не пішла жодним з них. Замість цього компанія банально «пропилососила» інтернет, після чого віддавала усю зібрану інформацію мовній моделі.
Цікаво, що під час релізу ChatGPT та GPT-4 OpenAI не оприлюднила жодних подробиць про кількість навчальних даних, які використовувалися для навчання моделей. І це при тому, що, на думку експертів, оновлена мовна модель навчена на в рази більшій кількості даних, ніж GPT-3, яка мала 175 млрд різних параметрів.
У технічному документі GPT-4 є розділ про конфіденційність, у якому вказано, що OpenAI вживає заходів для захисту приватності людей. Так, компанія наприклад використовує «тонку настройку» моделей, щоб люди, які хочуть дізнатися якусь особисту інформацію під час спілкування із чат-ботом, не могли цього зробити; крім того, в OpenAI стверджують, що видаляють особисту інформацію «там, де це можливо».
Насправді OpenAI — це лише вершина айсберга. Питання, які порушив італійський регулятор (та які, напевне, будуть підіймати їхні колеги з інших країн) стосуються усіх компаній, які працюють у сфері генеративного штучного інтелекту. Регуляторні норми потроху розробляються, але вони очевидно не встигають за швидкістю розвитку технології, а тому питання про те, як законно збирати дані для навчання ШІ, стає все більш критичним.
Ще одна проблема — що робити з уже готовими масивами даних, які були зібрані вже давно, коли про конфіденційність мало хто замислювався. Як видалити інформацію з даних, на яких навчалася генеративна модель ШІ — відкрите питання, відповіді на яке ні в кого нема. Більшість експертів сумніваються, що регулятори зможуть знайти спосіб вийти з цієї ситуації окрім банальної заборони на використання інструментів, як це сталося з ChatGPT.
Юдін з Норвезького органу захисту даних пояснює, що вичистити мовну модель від усіх персональних даних, які могли бути використані для її навчання буде дуже важко, оскільки часто цього не дозволяє навіть сама технічна інфраструктура компаній. «Якщо модель була навчена на незаконно зібраних персональних даних, це означатиме, що ви, по суті, не зможете використовувати свою модель», — поки що це є головним підсумком блокувань станом на сьогодні.