OpenAI Voice Engine — технологія клонування голосів за 15 секунд / NV

Автор: Анастасія Печенюк

OpenAI презентувала свою нову технологію Voice Engine, що може клонувати голоси. Для навчання моделі достатньо 15-секундного аудіозапису мовця.

Сервіс дозволяє отримати цифрову копію голосу мовця за допомогою аудіозразка. Після того, як голос буде клоновано, користувач може ввести текст у Voice Engine та отримати озвучений цим голосом текст.OpenAI сподівається, що в майбутньому технологія допоможе читати та перекладати тексти, надавати підтримку людям, що втратили голос тощо.

«Наразі ми ділимося попередньою ідеєю та результатами невеликого попереднього перегляду моделі під назвою Voice Engine, яка використовує введення тексту та один 15-секундний аудіосигнал для створення мовлення, що звучить природно та дуже нагадує оригінального мовця. Примітно, що невелика модель з одним 15-секундним семплом може створювати емоційні та реалістичні голоси», — розповідає OpenAI у своєму блозі.

Компанія зазначає, що планувала запустити пілотну програму для розробників для реєстрації в Voice Engine API на початку цього місяця. Але після додаткових міркувань про етичні наслідки амбіції вирішили зменшити.

«Відповідно до нашого підходу до безпеки штучного інтелекту та наших добровільних зобов’язань, ми обираємо попередній перегляд, але не широко випускаємо цю технологію зараз. Ми сподіваємося, що цей попередній перегляд Voice Engine наголосить на його потенціалі, а також мотивує необхідність підвищити стійкість суспільства до викликів, створених дедалі переконливішими генеративними моделями», — пише OpenAI.

Розробник також наголошує на потенційних зловживаннях його технологією і шукає способи запобігти цьому. Щоб використовувати Voice Engine, кожен партнер має погодитися з умовами, які забороняють видавати себе за іншу особу чи організацію без згоди чи законного права. Умови також вимагають, щоб партнери отримували інформовану згоду від людей, чиї голоси клонуються. Також необхідно чітко інформувати, що голоси були створені ШІ. OpenAI також додає водяний знак у кожен зразок голосу, що допоможе відстежити походження записів, створених Voice Engine.

«Ми сподіваємося розпочати діалог про відповідальне розгортання синтетичних голосів і про те, як суспільство може адаптуватися до цих нових можливостей. На основі цих розмов і результатів цих невеликих тестів ми приймемо більш обґрунтоване рішення про те, чи слід і як розгортати цю технологію в масштабі», — сповіщає компанія.

OpenAI надає у своєму блозі три рекомендації щодо того, як суспільство має змінитися, щоб адаптуватися до цієї технології. Ці кроки включають поступову відмову від голосової автентифікації для банківських рахунків, навчання громадськості розумінню можливостей оманливого вмісту, створеного за допомогою ШІ, та прискорення розробки методів, які можуть відстежувати походження аудіовмісту,

За словами OpenAI, технологію Voice Engine було створено ще наприкінці 2022 року. Чимало людей уже використовували версію технології з попередньо визначеними (а не клонованими) голосами двома способами: в режимі голосової розмови в застосунку ChatGPT та API для перетворення тексту в мову.

Читайте також:

Не для загалу. OpenAI показала сервіс клонування голосу Voice Engine