Кинематографическое качество. Новый ИИ от Meta превращает текст в полноценные видео с людьми

4 апреля 2025, 00:55

Исследователи Meta и Университета Ватерлоо создали систему искусственного интеллекта MoCha, которая генерирует анимированных персонажей с синхронизированной речью и естественными движениями.

MoCha работает на основе модели диффузионного трансформатора с 30 миллиардами параметров. Исследователи построили эту модель, используя 300 часов тщательно отфильтрованного видеоконтента. Какой именно это был контент, не раскрывается.

Реклама

Генератор создает видеоклипы HD-качества длительностью около пяти секунд со скоростью 24 кадра в секунду.

Генератор использует механизм Speech-Video Window Attention для решения постоянных проблем в создании видео искусственным интеллектом: сжатие видео во время обработки, в то время как аудио остается в полном разрешении, и несогласованные движения губ во время параллельного создания видео. Также, в отличие от предыдущих моделей, которые сосредотачивались только на лицах, MoCha может воспроизводить движения всего тела человека под разными углами.

Для сцен с несколькими персонажами команда разработала оптимизированную систему подсказок. Пользователи могут создать персонажей один раз и дальше ссылаться на них с помощью простых тегов, таких как Person 1, 2 и т. д.

Исследователи пишут в статье, посвященной MoCha, что генератор может быть использован для создания цифровых помощников и виртуальных аватаров для рекламного и образовательного контента. Однако Meta пока не раскрыла, останется ли этот видеогенератор исследовательским прототипом или будет выпущен как продукт с открытым кодом.

Показать ещё новости