Кинематографическое качество. Новый ИИ от Meta превращает текст в полноценные видео с людьми
Исследователи Meta и Университета Ватерлоо создали систему искусственного интеллекта MoCha, которая генерирует анимированных персонажей с синхронизированной речью и естественными движениями.
MoCha работает на основе модели диффузионного трансформатора с 30 миллиардами параметров. Исследователи построили эту модель, используя 300 часов тщательно отфильтрованного видеоконтента. Какой именно это был контент, не раскрывается.
Генератор создает видеоклипы HD-качества длительностью около пяти секунд со скоростью 24 кадра в секунду.
Генератор использует механизм Speech-Video Window Attention для решения постоянных проблем в создании видео искусственным интеллектом: сжатие видео во время обработки, в то время как аудио остается в полном разрешении, и несогласованные движения губ во время параллельного создания видео. Также, в отличие от предыдущих моделей, которые сосредотачивались только на лицах, MoCha может воспроизводить движения всего тела человека под разными углами.
Для сцен с несколькими персонажами команда разработала оптимизированную систему подсказок. Пользователи могут создать персонажей один раз и дальше ссылаться на них с помощью простых тегов, таких как Person 1, 2
Исследователи пишут в статье, посвященной MoCha, что генератор может быть использован для создания цифровых помощников и виртуальных аватаров для рекламного и образовательного контента. Однако Meta пока не раскрыла, останется ли этот видеогенератор исследовательским прототипом или будет выпущен как продукт с открытым кодом.