10 млн токенів і нова архітектура. Meta випустила сімейство флагманських моделей ШІ Llama 4
Інновації7 квітня 2025, 12:35
Всього запропоновано три нові моделі: Llama 4 Scout, Llama 4 Maverick і Llama 4 Behemoth. Scout і Maverick відкрито доступні на Llama.com і від партнерів Meta, включаючи платформу розробників AI Hugging Face, тоді як Behemoth все ще навчають.
Meta каже, що Llama 4 є першою серією моделей, у якій використовується архітектура Mixture of experts (MoE). Архітектури MoE в основному розбивають завдання обробки даних на підзадачі, а потім делегують їх меншим спеціалізованим «експертним» моделям.
Maverick, наприклад, має 400 мільярдів параметрів, але лише 17 мільярдів активних параметрів у 128 «експертів». Scout має 17 мільярдів активних параметрів, 16 «експертів» і 109 мільярдів загальних параметрів.
Відповідно до внутрішнього тестування Meta, Maverick найкраще підходить для випадків використання в ролі загального помічника. Модель може допомогти з такими завданнями, як творче написання. В Meta стверджують, що цей ШІ перевершує такі моделі, як GPT-4o від OpenAI та Gemini 2.0 від Google, у певних тестах. Однак Maverick відстає від більш потужних останніх моделей, як Gemini 2.5 Pro від Google, Claude 3.7 Sonnet від Anthropic і GPT-4.5 від OpenAI.
Сильні сторони Scout полягають у таких завданнях, як узагальнення документів і міркування над великими кодовими базами. ШІ має дуже велике контекстне вікно: 10 мільйонів токенів. Модель може приймати зображення та до мільйонів слів, що дозволяє працювати з надзвичайно великими документами.
При цьому, відповідно до розрахунків Meta, Scout може працювати на одному графічному процесорі Nvidia H100. Для Maverick потрібна система Nvidia H100 DGX або еквівалент. Невидана модель Behemoth від Meta потребуватиме ще потужнішого обладнання. За даними компанії, Behemoth має 288 мільярдів активних параметрів, 16 «експертів» і майже два трильйони загальних параметрів. Внутрішній порівняльний аналіз Meta показує, що Behemoth перевершує GPT-4.5, Claude 3.7 Sonnet і Gemini 2.0 Pro (але не 2.5 Pro) у кількох тестах, зокрема на розв’язання математичних задач.
Meta каже, що Meta AI, її помічник на основі штучного інтелекту в застосунках, включаючи WhatsApp, Messenger і Instagram, оновлено для використання Llama 4 у 40 країнах. Але мультимодальні функції наразі доступні лише для користувачів зі США і лише англійською мовою. В Україні цей чат-бот наразі недоступний.
Раніше повідомлялося, що успіх відкритих моделей від китайської лабораторії штучного інтелекту DeepSeek, які працюють на рівні або краще, ніж попередні флагманські моделі Meta Llama, змусив компанію Марка Цукерберга пришвидшити розробки. Повідомлялося, що Meta створила окремі команди, щоб розшифрувати, як DeepSeek знизила вартість запуску та розгортання таких моделей, як R1 і V3.