Meta Muse Spark — первая модель Superintelligence Labs с мультимодальным ИИ / NV

Автор: Дарья Позняковская

Компания Meta запустила новую модель искусственного интеллекта Muse Spark, которая объединяет текст, изображения и инструменты в одной системе и, по заявлению компании, требует более чем в 10 раз меньше вычислительных ресурсов по сравнению с предыдущими моделями.

Об этом пишет издание Interesting Engineering.

Meta представила Muse Spark как первую разработку своего подразделения Superintelligence Labs. Модель сочетает мультимодальное мышление и выполнение задач с помощью агентов.

В отличие от предыдущих систем, она может одновременно обрабатывать текст, изображения и инструменты в рамках единой среды. Также в модели используется подход, где несколько агентов мышления работают параллельно.

В компании говорят, что это помогает лучше решать сложные задачи, хотя признают, что система еще имеет недостатки.

Muse Spark отражает общую тенденцию развития искусственного интеллекта, когда модели не только генерируют текст, но и анализируют визуальные и реальные данные.

Модель может анализировать изображения, решать задачи по STEM-дисциплинам и распознавать объекты с учетом контекста. Она также поддерживает пошаговое объяснение на основе изображений, что в Meta называют «визуальной цепочкой мышления».

Это позволяет использовать систему для практических задач. Например, пользователи могут просить помочь с ремонтом техники или получать пошаговые инструкции с визуальными подсказками. Также модель способна создавать интерактивный контент, в том числе простые игры по запросу.

В то же время в отрасли такие возможности еще работают неравномерно. Несмотря на заявления о прогрессе, стабильность работы в реальных условиях пока отстает от результатов тестов.

Одной из ключевых новаций стала функция «режим размышлений». Она запускает несколько агентов мышления одновременно, чтобы эффективнее решать сложные задачи.

Meta сообщает, что Muse Spark набрала 58% в тесте Humanity’s Last Exam и 38% в заданиях FrontierScience Research. Эти показатели оценивают способность модели к сложному мышлению, однако их сложно сравнивать между различными системами из-за разных методов оценивания.

В компании отмечают, что модель стала более надежной и при этом сохраняет разнообразие ответов. Также утверждается, что она лучше справляется с задачами, которых не было в учебных данных, но независимых подтверждений этому пока мало.

Разработка Muse Spark сопровождалась изменениями в инфраструктуре. По словам Meta, за последние девять месяцев компания перестроила процесс обучения моделей, сосредоточившись на архитектуре, оптимизации и качестве данных.

Это, как утверждают в компании, позволило достичь подобных результатов с более чем в 10 раз меньшими вычислительными затратами по сравнению с предыдущей моделью Llama 4 Maverick.

В Meta отмечают, что обучение с подкреплением остается ключевым элементом подхода. По мере масштабирования обучения компания наблюдает стабильное улучшение как в тренировке, так и в тестировании моделей.

Muse Spark рассматривают как шаг к так называемому «персональному суперинтеллекту» — системам, которые понимают среду пользователя и могут оказывать индивидуальную помощь.

Одним из первых направлений применения называют медицину. Для этого учебные данные создавались вместе с врачами, чтобы улучшить объяснение медицинских тем.

В настоящее время Muse Spark доступен на платформах Meta, а также имеет ограниченный доступ через API для разработчиков.

Запуск модели свидетельствует об изменении конкуренции в сфере искусственного интеллекта. Компании сосредотачиваются не только на создании более умных моделей, но и на разработке систем, способных работать в реальном мире, хотя вопросы надежности и проверки остаются открытыми.

Мастер на все руки. Meta представила модель Muse Spark, которая работает в 10 раз эффективнее