Fugatto — Nvidia показала новый умный генератор музыки на видео / NV

Автор: Анастасия Печенюк

Nvidia выпустила новый инструмент с искусственным интеллектом Fugatto, способный создавать «звуки, которых вы никогда раньше не слышали» на основе простых текстовых подсказок.

Новая модель Nvidia генерирует или преобразует любую смесь музыки, голосов и звуков, описанных подсказками или с помощью комбинации текстовых и аудиофайлов. Над созданием экспериментального генеративного искусственного интеллекта Foundational Generative Audio Transformer Opus 1 (Fugatto) более года работала международная команда исследователей. Это, утверждает Nvidia, «сделало многоакцентные и многоязычные возможности Fugatto более сильными».

Компания утверждает, что Fugatto, в отличие от большинства моделей, которые могут только воспроизводить тренировочные данные, позволяет пользователям создавать новые звуковые пейзажи, как гроза, стихающая до рассвета, с пением птиц.

«Мы хотели создать модель, которая понимает и генерирует звук так же как это делают люди», — говорит менеджер по прикладным аудиоисследованиям в Nvidia Рафаэль Валле.

Разработчики говорят, что Fugatto пригодится музыкальным продюсерам, которые смогут создавать и совершенствовать музыкальные черновики, и создателям видеоигр, которые смогут легко генерировать аудиосопровождение для своих проектов. В конце концов, инструмент может помочь и с изучением языков. Когда модель станет доступной широкой общественности — пока неизвестно.

Проект Nvidia не является уникальным. Ранее Google представила модель MusicLM, который превращает текст в музыку. Свой генератор звуков на основе текстовой подсказки представила и Meta.

Создает музыку и голоса. Nvidia презентовала очень мощный аудиогенератор