Наздогнати і перегнати. Meta стверджує, що створила проривну ШІ, яка перевершує конкурентів
Інновації21 квітня 2024, 20:57
Нова генерація великої мовної моделі Meta Llama, яка незабаром буде доступна для хмарних провайдерів, таких як AWS, і для бібліотек моделей, наразі пропонує дві моделі різної потужності з параметрами 8B і 70B. Як Meta інформує у своєму блозі, Llama 3, яка поки може обробляти тільки текстові запити, показала більше різноманітності у відповідях на підказки, менше відмов і кращі навички міркування. Крім того, Llama 3 розуміє більше інструкцій і пише кращий код, ніж раніше.
Ба більше, Meta стверджує, що обидві версії Llama 3 перемагають моделі подібного розміру, такі як Gemma від Google, Mistral 7B і Claude 3 від Anthropic у певних порівняльних тестах. У тесті MMLU, який зазвичай вимірює загальні знання, Llama 3 8B показав значно кращі результати, ніж Gemma 7B і Mistral 7B, тоді як Llama 3 70B трохи випередила Gemini Pro 1.5. Meta також каже, що Llama 3 отримала кращі оцінки, ніж GPT-3.5 OpenAI. Проте Meta не порівняла свою модель з більш актуальним продуктом OpenAI GPT-4.
Для оцінки, як зазначається, використали новий набір даних, що імітує реальні сценарії використання Llama 3, як-от запити порад, задачі на узагальнення та написання творчих текстів. Команда, яка працювала над моделлю, нібито не мала доступу до нових критеріїв оцінки.
Очікується, що Llama 3 потім матиме ще більші розміри, тож розумітиме ще довші рядки інструкцій і масиви даних, а також підтримуватиме мультимодальні функції: створення зображень, транскрибування аудіофайлів тощо.