Ужасная ошибка. Генераторы изображений с ИИ обучали на порноматериалах с детьми — исследование

22 декабря 2023, 00:25

Автор: Анастасия Печенюк

Исследователи из Stanford Internet Observatory изучили наборы данных, используемые для обучения инструментов для создания изображений с искусственным интеллектом, и обнаружили тысячи чувствительных материалов.

Речь идет о наборе данных для машинного обучения LAION-5B, опубликованном некоммерческой организацией LAION. Этот набор данных использовался Stable Diffusion и другими компаниями, предлагающими продукты с искусственным интеллектом.

Всего в него попали более 5 миллиардов ссылок на изображения и альтернативный текст к ним. Большинству учреждений в США запрещено просматривать материалы, которые могут содержать изображения сексуального насилия над детьми (CSAM) даже с целью проверки. Поэтому для изучения пакета LAION-5B исследователи использовали методы перцептивного и криптографического хеш-обнаружения.

Читайте также:

SDXL Turbo с ИИ генерирует изображение менее чем за секунду (Фото: Скриншот из видео Stability / YouTube)

Быстрее человеческого воображения. ИИ научили превращать текст в изображение в реальном времени

Согласно отчету Stanford Internet Observatory, таким образом исследователям удалось обнаружить, что набор данных LAION-5B содержит «миллионы порнографических изображений, изображений насилия и обнаженных детей, расистских мемов, символов ненависти, защищенного авторским правом искусства и работ, взятых с веб-сайтов частных компаний».

3226 записей из набора данных были определены как материалы, изображающие сцены сексуального насилия. 1008 из этих материалов уже были отмечены Канадским центром защиты детей, системой фильтрации PhotoDNA и т. д., как CSAM. Исследователи подчеркивают, что наличие CSAM в наборе данных может позволить моделям искусственного интеллекта, обученным на этих данных, создавать новые и даже реалистичные экземпляры CSAM.

Компания Stability AI тренировала свою модель ИИ Stable Diffusion, используя LAION-5B. Представитель Stability AI сообщил Bloomberg, что для этого было использовано отфильтрованное подмножество данных из этого набора. Кроме этого, представитель утверждает, что система компании запрещает использовать ее продукты для создания или редактирования CSAM и для других незаконных целей.

В то же время издание отмечает, что только новая версия инструмента создания изображений Stability AI училась на данных, которые были существенно отфильтрованы. Предыдущая версия Stable Diffusion 1.5, которая все еще доступна в Сети, как обнаружили исследователи, не имела такой же защиты.

LAION сообщила изданию 404 Media, что временно удаляет эти пакеты данных, чтобы убедиться, что они являются безопасными, и затем опубликует их повторно.

Войти