Искусственный интеллект придумал свой язык — как это возможно и что это значит / NV

Автор: Кирилл Чеботарев

Американский исследователь заметил, что нейросеть DALL-E 2 возможно изобрела свой собственный секретный язык. Насколько это реально и действительно ли искусственный интеллект уже начал хранить секреты от людей?

XXI век наверняка станет золотой эпохой искусственного интеллекта (ИИ). Ученые начинают все более активно пользоваться достижениями в этой области, а сам ИИ постепенно начинает вытеснять человека в некоторых аспектах жизни — как минимум потому, что эта технология помогает обрабатывать огромное количество данных намного быстрее.

Уже сейчас мы все больше зависим от работы нейросетей, а многие открытия без участия ИИ были бы невозможными. Технология помогает выявлять болезни и раскрывать структуру всех существующих в мире белков (журнал Science и вовсе включил это достижение в список важнейших научных прорывов 2021 года); помогает разобраться в истории возникновения нашей Вселенной и ищет инопланетян; в конце-концов, ИИ активно помогает Украине отбиваться от российской агрессии и идентифицировать военных преступников среди оккупантов.

Подпишитесь на NV Премиум и читайте без ограничений

Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой

Подписаться Я уже подписчик

Первый месяц 1 ₴. Отписаться можно в любой момент

Большинство исследователей уверенно — развитие человечества напрямую зависит от развития технологии искусственного интеллекта. В ответ на это скептики предупреждают о возможных различных утопичных сценариях — например, кто может гарантировать, что мы сумеем сохранить контроль над сверхразвитым ИИ? Вероятно, никто.

В последнее время все чаще появляются различные исследования, посвященные «очеловечиванию» искусственного интеллекта. Недавно мы писали о группе американских исследователей, которые пытаются обучить ИИ фантазировать и проводить аналогии вместо того, чтобы просто выполнять команды. Современный ИИ хорошо справляются с четко поставленными задачами, однако суть аналогии — брать информацию, из определенной ситуации, и переносить ее в другую — ему пока недоступна.

Недавно исследователи заметили странности в поведении модели DALL-E 2, которые позволили им предположить, что нейросеть придумала и развивает собственный язык.

Это нейросеть, которую разрабатывает компания OpenAI. Впервые она была представлена в январе 2021 года, и с тех пор регулярно получает обновления. Это одна из самых успешных моделей, которая генерирует изображения с помощью текстовых подсказок.

I made a "music video" using AI to generate all the images (sound on!) #dalle2 @openAI pic.twitter.com/u7uuOjdkxQ
— Karen X. Cheng (@karenxcheng) April 20, 2022

Принцип работы DALL-E 2 — вы вбиваете запрос, по которому нейросеть генерирует уникальные изображения.

Исследователь и кандидат компьютерных наук из Техасского университета Яннис Дарас предположил, что нейросеть, возможно, начала создавать собственный язык.

Фото: giannis_daras / Twitter

Одна из главных проблем DALL-E 2 — работа с текстом, объясняет Дарас в своей статье. Например, когда он попросил сгенерировать «двух фермеров, которые говорят об овощах, с субтитрами», нейросеть выдала картинку с вот такой тарабарщиной — «Vicootes» и «Apoploe vesrreaitars»

Когда же исследователь вбил «Vicootes» в нейросеть, она выдала ему картинки различных блюд с овощами. По запросу Apoploe vesrreaitars DALL-E 2 начала показывать птиц. По какой-то причине, нейросеть решила, что Apoploe vesrreaitais буквально означает «что-то летающее». Получается, на оригинальной картинке фермеры могут общаться о птицах, которые как-то влияют на их овощи.

«Иногда текст на картинке может быть абсолютно случайным. Однако некоторые эксперименты показали, что у нас есть возможность найти слова, которые, на первый взгляд, кажутся тарабарщиной, но на самом деле относятся к определенной визуальной концепции (по крайней мере, в определенном контексте)», — пишет Дарас.

Еще один подобный пример — «Два кита говорят о еде, с субтитрами». Нейросеть выдала картинку, на которой один из китов говорит другому «Wa ch zod rea», что по мнению исследователей, означает «морские существа, которые может съесть кит».

Фото: giannis_daras / Twitter

Позднее Дарас нашел еще несколько странных слов: например, «doitcdces» относится к учебе/студентам, tiboer — спорт; comafuruder — больница, болезни.

Могла ли DALL-E 2 действительно выдумать и развивать свой язык?

Первым делом стоит отметить, что проверить работу нейросети сейчас невозможно — в полном доступе она открыта лишь для некоторых исследователей. И даже они обладают ограниченным доступом: к примеру, менять код нейросети не может никто, кроме, конечно же, создателей.

Также важно понимать, как работает «мозг» DALL-E 2. Как объясняет один из разработчиков нейросети Райан О’Коннор, в ее основе лежит еще одна нейросеть, разработанная OpenAI — CLIP (Contrastive Language-Image Pre-training). CLIP обучается на сотнях миллионов изображений и связанных с ними подписей, чтобы «понять», как конкретный фрагмент текста относится к конкретному изображению.

Таким образом, DALL-E 2 генерирует изображения фактически на основе того, как в интернете подписаны миллионы других картинок. И если бы где-то существовал огромный архив, в котором собаки были подписаны как кошки, то нейросеть могла бы считать собак кошками.

Другие исследователи, которых заинтересовало необычное поведение нейросети, решили также подключиться к решению загадки. Аарон Сносуэлл из Технологического университета Квинсленда в своей колонке предположил, что «придуманный язык» нейросети, скорее всего, связан с тем, что сквозь ее базу прошло большое количество картинок и связанных с ними слов не на английском языке.

Его догадку подтверждает пользователь Twitter под ником BarneyFlames. Он заметил, что DALL-E часто использует части латинских слов для обозначения птиц. В своем втором треде Дарас отметил, что запрос Apodidae Ploceidae — реальное название двух семейств птиц — постоянно выдает им птиц. «Следовательно, одно из возможных объяснений состоит в том, что наши тарабарские токены представляют собой коллажи из частей реальных слов», — резюмирует исследователь.

Почему это произошло?

Искусственный интеллект работает не так, как человеческий мозг. Соответственно и «читает» текст он не так, как к этому привыкли мы. Вместо этого нейросети разбивают текст на «токены», которые обрабатывают и «собирают» их в целые слова и предложения.

Конечно, подход, когда каждое слово рассматривается как отдельная лексема, на первый взгляд кажется наиболее подходящим. Однако что делать, если одно слово имеет несколько совершенно разных значений (например, «машина» может быть автомобилем, а может быть и компьютером).

DALL-E 2 и многие другие нейросети OpenAI используют Byte-Pair Encoding (BPE). Это простой алгоритм сжатия данных, в которой наиболее распространенная пара байтов заменяется байтом, которого в этих данных нет.

Например, у нас есть комбинация букв aaabaaabac. Пара «аа» встречается чаще всех, следовательно ее алгоритм «токенизирует» в первую очередь, заменяя, например, на K. Получается KabKabac. ab также встречается часто — его нейросеть меняет, к примеру, на F. получается KFKFac. ac мы не трогаем, поскольку эта комбинация нигде не повторяется, зато у нас получилось два KF. Соответственно, их также можно зашифровать — например, под M. Вот и получается, что aaabaaabac = MMac.

Зная, как работает BPE, мы можем расшифровать некоторые слова из этого секретного языка DALL-E 2. Например, если взять слова Actinopterygii и Placodermi — названия классов рыб, а затем вбить в нейросеть placoactin knunfidg, то она начнет выдавать картинки рыб. Получается, нейросеть нашла большое количество картинок с рыбами, несколько картинок с рыбами, подписанными как Actinopterygii — и «связала» слово Actinopterygii со словом рыба.

Очевидно, это не полное и точно не единственное объяснение «тайного языка», который генерирует нейросеть. Александрос Димакис, соавтор оригинального исследования, отметил, что исключение некоторых букв из тарабарского запроса замазывает часть фона на картинке.

Фото: giannis_daras / Twitter

Действительно ли это так важно?

Если коротко, то да, это действительно важно. Сносуэлл называет появление секретного языка состязательной атакой, в результате которой нейросеть может работать все более непредсказуемо без возможности исправить эти странности.

Исследователям важно понимать, почему ИИ решает интерпретировать некоторые слова по-своему. Также нужно определить, почему нейросеть решила это делать с одними словами, но при этом не трогает другие.

Кроме того, в будущим этим «секретным языком» смогут воспользоваться злоумышленники, чтобы, к примеру, обойти фильтры и начать создавать при помощи DALL-E 2 оскорбительный, пропагандистский или порнографический контент. В конце-концов, мы хотим, чтобы ИИ вел себя предсказуемо, а не готовил нам неожиданные сюрпризы, о которых мы можем даже не догадываться до момента их появления.

Потому что одно дело сюрприз с тем, как нейросеть распознает и рисует рыбу. И совсем другое, если неожиданные сюрпризы будут возникать в работе ИИ с оружием. Возникновение «секретного языка» DALL-E 2 показывает, что опасения по поводу безопасности развития ИИ, которые высказывают многие эксперты, небезосновательны — и нам определенно стоит задуматься об этом уже в ближайшее время.

Ты что задумала? Нейросеть создала свой секретный язык: как это возможно и что это значит

Подпишитесь на NV Премиум и читайте без ограничений