
Искусственный интеллект может имитировать ваш голос. Его создали украинцы, и вот как это работает
Компания Respeecher уже два года разрабатывает инструмент, способный синтезировать голос любого человека. Ее основатель рассказал BBC News Украина, как работает технология и стоит ли бояться искусственного интеллекта.
Ви чуєте аудіозапис: на ньому вашим голосом звучать слова, яких ви ніколи не вимовляли. Колись це було фантастикою, тепер — цілком реальна технологія.
Українська компанія Respeecher вже два роки працює над штучним інтелектом, здатним синтезувати голос будь-якої людини.
Не без успіху. У компанії вже є контракт із голлівудською студією, яка застосовує цю технологію в кіно, а відео, що наочно демонструють можливості Respeecher, збирають сотні тисяч переглядів на Youtube.
BBC News Україна поговорила зі співзасновником Respeecher Олександром Сердюком про те, як працює технологія, як далеко їй до ідеалу і чи є хоч якісь шанси, що подібні інструменти рано чи пізно не потраплять в погані руки (здається, жодних).
Як змусити Ніксона сказати те, чого він не говорив
Нещодавно у мережі з’явилося відео, на якому відбувається щось дивне: Річард Ніксон, президент США у 1969−1974 роках, розповідає про загибель астронавтів місії «Аполон-11», яка у 1969 році мала першою доставити людей на Місяць.
В реальності місія пройшла успішно, жоден з астронавтів не загинув. Про що ж тоді говорить Ніксон?
Він не говорить. Відео — підробка, створена у Массачусетському інституті технологій. Ніксона «змусили» зачитати промову, текст якої колись був написаний на випадок провалу космічної місії, але з якою президент так ніколи й не вийшов на публіку.
https://www.youtube.com/watch?v=yaq4sWFvnAY
Щоб створити це відео, авторам знадобилися дві основні технології. Перша — штучний інтелект від Respeecher, який синтезує голос Ніксона.
Друга — штучний інтелект від компанії Canny AI, який змінив архівний відеозапис однієї зі справжніх промов президента США так, аби рухи губ та міміка Ніксона збігалися з тим текстом, який він вимовляє завдяки Respeecher.
Проєкт не лишився непоміченим. Про «звернення» Ніксона написали десятки західних ЗМІ — від спеціалізованих видань про науку і технології до Newsweek та Euronews. У листопаді ширшу версію відеозапису показали на Міжнародному фестивалі документального кіно в Амстердамі.
Як це працює
На місці Ніксона може бути хто завгодно: Трамп, Черчилль, Роберт Де Ніро і навіть ви.
Приміром, Respeecher має навчитися імітувати ваш голос. Для початку потрібні дві аудіодоріжки: на одній — запис вашого голосу, на іншій — запис актора, який слово в слово повторює вимовлений вами текст.
На цьому етапі програма тренується: порівнює обидва записи і виявляє, чим один голос відрізняється від іншого.
Тепер, коли штучний інтелект розуміє різницю, він здатен перетворювати голос актора на ваш — який би текст той не зачитував.
Аби програма спрацювала ефективно, їй потрібно проаналізувати принаймні годину запису цільового голосу — того, який треба зімітувати. З високою ймовірністю за цей час вона почує достатнє різноманіття слів та звукосполучень, проаналізує особливості цільового голосу та зрозуміє, як їх варто відтворювати.
- Чому ми неправильно уявляємо знищення людства роботами
- Попередження Гокінга: що чекає нас у майбутньому
Що це за голоси, каже засновник Respeecher Олександр Сердюк, немає значення: низький голос можна перетворити на високий, чоловічий на жіночий, а дитячий на дорослий.
«На ринку є два основні підходи до синтезування голосу. Більшість продуктів працює за принципом «text to speech», коли голос генерується з тексту. Ми принципово від них відрізняємось: Respeecher синтезує потрібний голос з голосу іншої людини «, — пояснює Сердюк в розмові з BBC News Україна.
«Такий підхід більш ефективний. Коли ти генеруєш голос із тексту, твої можливості дуже обмежені. Ти не маєш змоги контролювати емоційне забарвлення голосу і результат виходить дещо механічним. У нас цю проблему вирішує актор, який може підібрати потрібні інтонації».
«Окрім того, інструменти, які синтезують голос із тексту, подекуди потребують до 20 годин запису цільового голосу — саме стільки їм потрібно, аби натренувати штучний інтелект. Нам достатньо години», — розповідає Сердюк.
У листопаді галасу у соцмережах наробило підробне відеозвернення британського прем ' єр-міністра Бориса Джонсона, в якому він закликав виборців підтримати свого політичного опонента Джеремі Корбіна.
Візуальна складова відео — результат роботи штучного інтелекту. Д ля підробки голосу жодн их технологі й не використовували, його зімітував професійний актор.
https://www.youtube.com/watch?v=30NvDC1zcL8
Чи заговорить Том Хенкс українською?
Потенційні можливості використання Respeecher здаються мало не безмежними, передусім, у сфері розваг: від кіно і реклами до індустрії відеоігор.
Можна, приміром, синтезувати голос історичної постаті для фільму, а можна озвучити аудіокнигу голосом знаменитості. Без фактичної участі самої знаменитості.
«Є багато замовників, які хотіли б використовувати у своїх проєктах голоси відомих акторів чи співаків. Але той-таки Snoop Dogg, приміром, навряд чи буде в захваті від ідеї два тижні просидіти в студії лише для того, щоб його голос з’явився в якійсь відеогрі. Зрештою, йому може просто бракувати на це часу. Наш інструмент дозволить іншому актору зробити всю роботу за нього», — пояснює Олександр Сердюк.
Головні орієнтири компанії — на Заході. У Respeecher вже є контракт з однією з великих голлівудських студій, ще з кількома ведуться розмови про майбутні проєкти.
«За умовами контракту, на жаль, поки що не можу говорити, що це за студія і що це за фільм. Але це дуже амбітна історія, стрічка має вийти на екрани незабаром. Для неї ми відтворили голос актора, якого вже немає серед живих», — розповідає засновник Respeecher.
Вирішення деяких завдань лише попереду.
«Серед кіношників є великий інтерес, аби оригінальні голоси акторів зберігалися при дублюванні фільмів іншими мовами. Тобто, щоб герой Тома Хенкса говорив голосом Тома Хенкса не лише в англомовній версії фільму — щоб він буквально заговорив українською, російською або німецькою. Поки що наша технологія не дозволяє цього зробити, але ми дивимося у цьому напрямку».
Минулого року видання Buzzfeed створило підробне звернення Барака Обами, де він міркує про поширення фейкових новин і називає Дональда Трампа «недоумком». Голос Обами озвучив режисер Джордан Піл.
https://www.youtube.com/watch?v=cQ54GDm1eL0
Як далеко до ідеалу?
Судячи з відгуків у ЗМІ та соцмережах, потенціал Respeecher вражає багатьох вже зараз. Проте розробникам ще є над чим попрацювати, визнає Олександр Сердюк.
«Працюємо над покращенням діапазону емоцій, які здатен синтезувати штучний інтелект. Зараз система стабільно справляється зі спокійним голосом, але різні екстремальні голосові ситуації — скажімо, крик, спів чи шепіт — з цим поки є певні труднощі».
Є й інші завдання, які тільки доведеться вирішити: «Зараз процес синтезування голосу займає певний час, а нам би дуже хотілося, щоб це відбувалося в режимі реального часу. Це інженерна задача — є впевненість, що ми зможемо її вирішити десь за пів року. Окрім того, працюємо над тим, аби система навчилася не лише змінювати голос, а й нівелювати акцент його носія».
Якщо це вдасться, перед Respeecher відкриються ще ширші перспективи: «Приміром, багато кол-центрів західних компаній знаходяться за межами США, звідки оператори й обслуговують американських клієнтів. Вони говорять англійською, але з відчутним акцентом, і компанії дуже зацікавлені в технології, яка б дозволила мінімізувати його в реальному часі».
Вже боятися чи ще ні?
Чи стане колись технологія реалістичного синтезування голосу загальнодоступною? Це лише питання часу, погоджується Олександр Сердюк. Чи спробують її використати у не найбільш благородних цілях? Обов’язково.
«Синтезування голосу — це лише інструмент. Як друкарський станок. Колись були люди — наші дідусі й бабусі, — які читали щось надруковане на папері, в газеті, і вірили кожному слову. Але чи винен в цьому друкарський станок? Люди мають усвідомити, куди йде світ, і що не можна вірити всьому, що вони читають, бачать і чують».
«Зі свого боку ми у Respeecher робимо все, щоб доступ до технології залишався обмеженим: в нас достатньо суворі правила. Просто прийти з проханням відтворити чийсь голос не можна. Ми вимагаємо згоду власника цільового голосу. Якщо ця людина вже померла — згоду його родичів або інших правовласників. Доступу до нашої технології клієнти, з якими ми працюємо, не мають».
- Британська доповідь: фейки в соцмережах витісняють реальні новини
- Невидимий сексизм: чому техніку розробляють під чоловіків?
«Головна причина, чому ми взяли участь у проєкті з відеозверненням Ніксона, — соціальна. Ми на ньому нічого не заробили, але там є важливий меседж, який хочеться донести світу: можливості технологій аудіо та відеосинтезу наразі дуже серйозні. І людям непогано було б принаймні знати, що вони існують», — каже Сердюк.
При цьому, додає він, панікувати і бити на сполох поки все ж зарано.
«Побоювання не безпідставні, але люди завжди схильні дещо перебільшувати. Поки що реалістичне синтезування голосу — це процес, що потребує доволі значних ресурсів. Є серйозні вимоги до якості записів, є великий обсяг роботи, який потрібно виконати, є чимало інших аспектів, що впливають на результат. Технологія поки що не на тому рівні, коли будь-хто з легкістю може її використати в якихось нехороших цілях», — підсумовує засновник Respeecher.
У серпні 2019 року видання The Wall Street Journal розповіло , як штучний інтелект зімітував голос керівника німецької компанії й допоміг шахраям поцупити понад 240 тисяч доларів.
Кошти зловмисникам переказав керівник дочірньої фірми: він тричі говорив із шахраями телефоном і щоразу був впевнений, що спілкується зі своїм начальником — каже, «впізнав його легкий німецький акцент і мелодію голосу».
До цього, у липні 2019 року, стало відомо про принаймні три схожі інциденти, в яких зловмисники могли використовувати штучний інтелект для підробки голосу керівників великих фірм. Експерти компанії Symantec оцінюють завдані таким чином збитки у кілька мільйонів доларів.
Хочете отримувати найважливіші новини в месенджер? Підписуйтеся на наш Telegram або Viber !