Не для общественности. OpenAI показала сервис клонирования голоса Voice Engine

1 апреля 2024, 12:10

Автор: Анастасия Печенюк

OpenAI представила свою новую технологию Voice Engine, которая может клонировать голоса. Для обучения модели достаточно 15-секундной аудиозаписи говорящего.

Сервис позволяет получить цифровую копию голоса говорящего с помощью аудиообразца. После того как голос будет клонирован, пользователь может ввести текст в Voice Engine и получить озвученный этим голосом текст. OpenAI надеется, что в будущем технология поможет читать и переводить тексты, оказывать поддержку людям, потерявшим голос и тому подобное.

«Сейчас мы делимся предварительной идеей и результатами небольшого предварительного просмотра модели под названием Voice Engine, которая использует ввод текста и один 15-секундный аудиосигнал для создания речи, которая звучит естественно и очень напоминает оригинального говорящего. Примечательно, что небольшая модель с одним 15-секундным семплом может создавать эмоциональные и реалистичные голоса», — рассказывает OpenAI в своем блоге.

Компания отмечает, что планировала запустить пилотную программу для разработчиков для регистрации в Voice Engine API в начале этого месяца. Но после дополнительных рассуждений об этических последствиях амбиции решили уменьшить.

«В соответствии с нашим подходом к безопасности искусственного интеллекта и наших добровольных обязательств, мы выбираем предварительный просмотр, но не широко выпускаем эту технологию сейчас. Мы надеемся, что этот предварительный просмотр Voice Engine подчеркнет его потенциал, а также мотивирует необходимость повысить устойчивость общества к вызовам, созданным все более убедительными генеративными моделями», — пишет OpenAI.

Разработчик также отмечает потенциальные злоупотребления его технологией и ищет способы предотвратить это. Чтобы использовать Voice Engine, каждый партнер должен согласиться с условиями, которые запрещают выдавать себя за другое лицо или организацию без согласия или законного права. Условия также требуют, чтобы партнеры получали информированное согласие от людей, чьи голоса клонируются. Также необходимо четко информировать, что голоса были созданы ИИ. OpenAI также добавляет водяной знак в каждый образец голоса, что поможет отследить происхождение записей, созданных Voice Engine.

«Мы надеемся начать диалог об ответственном развертывании синтетических голосов и о том, как общество может адаптироваться к этим новым возможностям. На основе этих разговоров и результатов этих небольших тестов мы примем более обоснованное решение о том, следует ли и как развертывать эту технологию в масштабе», — сообщает компания.

OpenAI предоставляет в своем блоге три рекомендации относительно того, как общество должно измениться, чтобы адаптироваться к этой технологии. Эти шаги включают постепенный отказ от голосовой аутентификации для банковских счетов, обучение общественности пониманию возможностей обманчивого контента, созданного с помощью ИИ, и ускорение разработки методов, которые могут отслеживать происхождение аудиоконтента.

По словам OpenAI, технология Voice Engine была создана еще в конце 2022 года. Многие уже использовали версию технологии с предварительно определенными (а не клонированными) голосами двумя способами: в режиме голосового разговора в приложении ChatGPT и API для преобразования текста в речь.

Войти