Создает музыку и голоса. Nvidia презентовала очень мощный аудиогенератор
Инновации28 ноября 2024, 17:35
Новая модель Nvidia генерирует или преобразует любую смесь музыки, голосов и звуков, описанных подсказками или с помощью комбинации текстовых и аудиофайлов. Над созданием экспериментального генеративного искусственного интеллекта Foundational Generative Audio Transformer Opus 1 (Fugatto) более года работала международная команда исследователей. Это, утверждает Nvidia, «сделало многоакцентные и многоязычные возможности Fugatto более сильными».
Компания утверждает, что Fugatto, в отличие от большинства моделей, которые могут только воспроизводить тренировочные данные, позволяет пользователям создавать новые звуковые пейзажи, как гроза, стихающая до рассвета, с пением птиц.
«Мы хотели создать модель, которая понимает и генерирует звук так же как это делают люди», — говорит менеджер по прикладным аудиоисследованиям в Nvidia Рафаэль Валле.
Разработчики говорят, что Fugatto пригодится музыкальным продюсерам, которые смогут создавать и совершенствовать музыкальные черновики, и создателям видеоигр, которые смогут легко генерировать аудиосопровождение для своих проектов. В конце концов, инструмент может помочь и с изучением языков. Когда модель станет доступной широкой общественности — пока неизвестно.
Проект Nvidia не является уникальным. Ранее Google представила модель MusicLM, который превращает текст в музыку. Свой генератор звуков на основе текстовой подсказки представила и Meta.