Meta кидає виклик конкурентам, випускаючи оновлену мовну модель ШІ Llama 3 / NV

Автор: Анастасія Печенюк

Meta випустила оновлену версію великої мовної моделі Llama 3, яка нібито перевершує більшість поточних моделей штучного інтелекту, створених іншими компаніями.

Нова генерація великої мовної моделі Meta Llama, яка незабаром буде доступна для хмарних провайдерів, таких як AWS, і для бібліотек моделей, наразі пропонує дві моделі різної потужності з параметрами 8B і 70B. Як Meta інформує у своєму блозі, Llama 3, яка поки може обробляти тільки текстові запити, показала більше різноманітності у відповідях на підказки, менше відмов і кращі навички міркування. Крім того, Llama 3 розуміє більше інструкцій і пише кращий код, ніж раніше.

Ба більше, Meta стверджує, що обидві версії Llama 3 перемагають моделі подібного розміру, такі як Gemma від Google, Mistral 7B і Claude 3 від Anthropic у певних порівняльних тестах. У тесті MMLU, який зазвичай вимірює загальні знання, Llama 3 8B показав значно кращі результати, ніж Gemma 7B і Mistral 7B, тоді як Llama 3 70B трохи випередила Gemini Pro 1.5. Meta також каже, що Llama 3 отримала кращі оцінки, ніж GPT-3.5 OpenAI. Проте Meta не порівняла свою модель з більш актуальним продуктом OpenAI GPT-4.

Для оцінки, як зазначається, використали новий набір даних, що імітує реальні сценарії використання Llama 3, як-от запити порад, задачі на узагальнення та написання творчих текстів. Команда, яка працювала над моделлю, нібито не мала доступу до нових критеріїв оцінки.

Очікується, що Llama 3 потім матиме ще більші розміри, тож розумітиме ще довші рядки інструкцій і масиви даних, а також підтримуватиме мультимодальні функції: створення зображень, транскрибування аудіофайлів тощо.

Читайте також:

Наздогнати і перегнати. Meta стверджує, що створила проривну ШІ, яка перевершує конкурентів