Кінематографічна якість. Новий ШІ від Meta перетворює текст на повноцінні відео з людьми

4 квітня 2025, 00:55

Автор: Анастасія Печенюк

Дослідники Meta та Університету Ватерлоо створили систему штучного інтелекту MoCha, яка генерує анімованих персонажів із синхронізованою мовою та природними рухами.

MoCha працює на основі моделі дифузійного трансформатора з 30 мільярдами параметрів. Дослідники побудували цю модель, використовуючи 300 годин ретельно відфільтрованого відеоконтенту. Який саме це був контент, не розкривається.

Генератор створює відеокліпи HD-якості тривалістю близько п’яти секунд зі швидкістю 24 кадри в секунду.

https://twitter.com/CongWei1230/status/1907879690959732878

Генератор використовує механізм Speech-Video Window Attention для розв’язання постійних проблем у створенні відео штучним інтелектом: стиснення відео під час обробки, у той час, як аудіо залишається в повній роздільній здатності, і неузгоджені рухи губ під час паралельного створення відео. Також, на відміну від попередніх моделей, які зосереджувалися лише на обличчях, MoCha може відтворювати рухи всього тіла людини під різними кутами.

Читайте також:

Не виправдовує очікувань? Користувачі показали потворні ролики, які генерує платний ШІ від OpenAI

Для сцен із кількома персонажами команда розробила оптимізовану систему підказок. Користувачі можуть створити персонажів один раз і далі посилатися на них за допомогою простих тегів, як-от Person 1, 2 тощо.

Читайте також:

OpenAI втерли носа. Google відкрила доступ до свого відеогенератора з ШІ

Дослідники пишуть у статті, присвяченій MoCha, що генератор може бути використаний для створення цифрових помічників і віртуальних аватарів для рекламного та освітнього контенту. Однак Meta поки не розкрила, залишиться цей відеогенератор дослідницьким прототипом чи буде випущений як продукт з відкритим кодом.

Теги: Meta Meta Штучний інтелект

Якщо ви знайшли помилку в тексті, виділіть її мишкою і натисніть Ctrl + Enter

Загрузка...

Увійти