Whisper от OpenAI придумывает свой текст вместо создания транскрипции / NV

Автор: Анастасия Печенюк

Исследователи обнаружили, что инструмент для транскрибирования Whisper от OpenAI изменяет содержание большинства разговоров, записи которых в него загружают. В некоторых случаях галлюцинации ИИ вызывают появление агрессивных и расистских комментариев.

Более десятка разработчиков, инженеров программного обеспечения и исследователей нашли доказательства того, что Whisper создает вымышленный текст во время транскрибирования. В частности, двое профессоров, Эллисон Кенеке и Мона Слоан из Корнелльского университета и Университета Вирджинии, соответственно, просмотрели клипы из исследовательского хранилища под названием TalkBank и обнаружили, что почти 40% галлюцинаций способствуют неправильному толкованию сказанного. В одном из обнаруженных ими случаев Whisper придумал, что три обсуждаемых лица были темнокожими, хотя об этом не говорилось («две другие девушки и одну женщину, гм, которые были черными» вместо оригинального «других двух девушек и одну женщину»). В другом добавил детали об убийстве, которых не содержалось в записи («Он взял большой кусок креста, маленький, маленький… Я уверен, что у него не было ужасного ножа, поэтому он убил много людей» вместо «Он, парень, собирался взять зонт, но я точно не уверен»).

Исследователи из Мичиганского университета нашли вымышленный текст в восьми из десяти аудиотранскрипций публичных встреч. В другом исследовании специалисты обнаружили 187 галлюцинаций во время анализа более 13 000 аудиозаписей. Инженер машинного обучения нашел их примерно в половине из более 100 часов транскрипций, а разработчик заметил галлюцинации почти во всех из 26 000 транскрипций, которые он поручил создать Whisper. Несмотря на это, последняя версия Whisper на HuggingFace получила 4,2 миллиона загрузок, пишет AP.

Галлюцинации Whisper по-особенному опасны тем, что создают медицинские риски. Компания под названием Nabla использует Whisper для своего инструмента медицинской транскрипции, которым пользуются более 30 000 медиков и 40 систем здравоохранения. С помощью этих инструментов транскрибировано около семи миллионов визитов к врачам. Хотя компания знает о проблеме и утверждает, что решает ее, пока нет возможности проверить качество стенограмм, поскольку, по словам главного технического директора Nabla Мартина Райсона, инструмент стирает все аудио из соображений безопасности данных.

Немного расизма не помешает? Инструмент для транскрибирования от OpenAI ужасно искажает 8 из 10 текстов