Кінематографічна якість. Новий ШІ від Meta перетворює текст на повноцінні відео з людьми
Дослідники Meta та Університету Ватерлоо створили систему штучного інтелекту MoCha, яка генерує анімованих персонажів із синхронізованою мовою та природними рухами.
MoCha працює на основі моделі дифузійного трансформатора з 30 мільярдами параметрів. Дослідники побудували цю модель, використовуючи 300 годин ретельно відфільтрованого відеоконтенту. Який саме це був контент, не розкривається.
Генератор створює відеокліпи HD-якості тривалістю близько п’яти секунд зі швидкістю 24 кадри в секунду.
Генератор використовує механізм Speech-Video Window Attention для розв’язання постійних проблем у створенні відео штучним інтелектом: стиснення відео під час обробки, у той час, як аудіо залишається в повній роздільній здатності, і неузгоджені рухи губ під час паралельного створення відео. Також, на відміну від попередніх моделей, які зосереджувалися лише на обличчях, MoCha може відтворювати рухи всього тіла людини під різними кутами.
Для сцен із кількома персонажами команда розробила оптимізовану систему підказок. Користувачі можуть створити персонажів один раз і далі посилатися на них за допомогою простих тегів, як-от Person 1, 2 тощо.
Дослідники пишуть у статті, присвяченій MoCha, що генератор може бути використаний для створення цифрових помічників і віртуальних аватарів для рекламного та освітнього контенту. Однак Meta поки не розкрила, залишиться цей відеогенератор дослідницьким прототипом чи буде випущений як продукт з відкритим кодом.