Композиторы, будьте начеку. Google DeepMind показала новый ИИ, пишущий саундтреки для видео
Лаборатория искусственного интеллекта DeepMind от Google работает над новой технологией, которая может генерировать звуковые дорожки (и даже диалоги) для видео.
Лаборатория поделилась своим прогрессом в создании технологии преобразования видео в аудио (V2A), которую можно совместить с инструментами для создания видео. В своей публикации в блоге команда DeepMind объясняет, что система может понимать необработанные пиксели и сочетать эту информацию с текстовыми подсказками для создания звуковых эффектов для происходящего на экране. Инструмент также можно использовать для создания звуковых дорожек для немых фильмов и видео без звука.
Исследователи DeepMind обучили эту технологию на видео, аудио и созданных искусственным интеллектом аннотациях, которые содержат подробные описания звуков и стенограммы диалогов. Они говорят, что благодаря этому технология научилась ассоциировать определенные звуки с визуальными сценами. Хотя текстовая подсказка необязательна, ее можно использовать для формирования и совершенствования конечного продукта, чтобы звуковая дорожка была максимально точной и реалистичной.
Исследователи признают, что они все еще пытаются устранить ограничения своей технологии V2A, такие как снижение качества аудио на выходе и плохая синхронизация губ для сгенерированного диалога. Кроме того, они обещают провести строгую оценку безопасности и испытания технологии перед выпуском в модели для пользователей.
Команда DeepMind не первая, кто выпустил инструмент искусственного интеллекта, который может генерировать звуковые эффекты. ElevenLabs также недавно выпустила похожий инструмент.