Кинематографическое качество. Новый ИИ от Meta превращает текст в полноценные видео с людьми

4 апреля 2025, 00:55

Автор: Анастасия Печенюк

Исследователи Meta и Университета Ватерлоо создали систему искусственного интеллекта MoCha, которая генерирует анимированных персонажей с синхронизированной речью и естественными движениями.

MoCha работает на основе модели диффузионного трансформатора с 30 миллиардами параметров. Исследователи построили эту модель, используя 300 часов тщательно отфильтрованного видеоконтента. Какой именно это был контент, не раскрывается.

Генератор создает видеоклипы HD-качества длительностью около пяти секунд со скоростью 24 кадра в секунду.

https://twitter.com/CongWei1230/status/1907879690959732878

Генератор использует механизм Speech-Video Window Attention для решения постоянных проблем в создании видео искусственным интеллектом: сжатие видео во время обработки, в то время как аудио остается в полном разрешении, и несогласованные движения губ во время параллельного создания видео. Также, в отличие от предыдущих моделей, которые сосредотачивались только на лицах, MoCha может воспроизводить движения всего тела человека под разными углами.

Исследователи пишут в статье, посвященной MoCha, что генератор может быть использован для создания цифровых помощников и виртуальных аватаров для рекламного и образовательного контента. Однако Meta пока не раскрыла, останется ли этот видеогенератор исследовательским прототипом или будет выпущен как продукт с открытым кодом.

Теги: Meta Meta Искусственный интеллект

Если вы нашли ошибку в тексте, выделите её мышью и нажмите Ctrl + Enter

Загрузка...

Войти