Композиторы, будьте начеку. Google DeepMind показала новый ИИ, пишущий саундтреки для видео

19 июня 2024, 14:55

Автор: Анастасия Печенюк

Лаборатория искусственного интеллекта DeepMind от Google работает над новой технологией, которая может генерировать звуковые дорожки (и даже диалоги) для видео.

Лаборатория поделилась своим прогрессом в создании технологии преобразования видео в аудио (V2A), которую можно совместить с инструментами для создания видео. В своей публикации в блоге команда DeepMind объясняет, что система может понимать необработанные пиксели и сочетать эту информацию с текстовыми подсказками для создания звуковых эффектов для происходящего на экране. Инструмент также можно использовать для создания звуковых дорожек для немых фильмов и видео без звука.

Исследователи DeepMind обучили эту технологию на видео, аудио и созданных искусственным интеллектом аннотациях, которые содержат подробные описания звуков и стенограммы диалогов. Они говорят, что благодаря этому технология научилась ассоциировать определенные звуки с визуальными сценами. Хотя текстовая подсказка необязательна, ее можно использовать для формирования и совершенствования конечного продукта, чтобы звуковая дорожка была максимально точной и реалистичной.

https://twitter.com/GoogleDeepMind/status/1802733643992850760

Исследователи признают, что они все еще пытаются устранить ограничения своей технологии V2A, такие как снижение качества аудио на выходе и плохая синхронизация губ для сгенерированного диалога. Кроме того, они обещают провести строгую оценку безопасности и испытания технологии перед выпуском в модели для пользователей.

Команда DeepMind не первая, кто выпустил инструмент искусственного интеллекта, который может генерировать звуковые эффекты. ElevenLabs также недавно выпустила похожий инструмент.

Войти