Нечесна гра. xAI могла спотворити результати галузевих тестів на свою користь
IT-індустрія24 лютого 2025, 14:50
У дописі у своєму блозі xAI опублікувала графік, що показує продуктивність Grok 3 у розв’язуванні завдань AIME 2025. Ця збірка містить складні математичні запитання. Хоча деякі експерти ставлять під сумнів доречність використання AIME як еталона для ШІ, ця і старіші версії тесту зазвичай використовуються для перевірки математичних здібностей моделі.
Графік xAI показав два варіанти Grok 3, Grok 3 Reasoning Beta та Grok 3 mini Reasoning, найефективнішу доступну модель OpenAI, o3-mini-high, та інші продукти компанії, що створила ChatGPT. Також моделі було порівняно з продуктами DeepSeek. Продукти xAI, за цими даними, перевершили моделі конкурентів.
Водночас команда OpenAI розкритикувала ці результати як оманливі. Зокрема, графік xAI не включав оцінку o3-mini-high за AIME 2025 в режимі «cons@64», який було використано для Grok. Цей режим тестування приймає відповіді на запитання, які найчастіше генеруються, як остаточні відповіді, і має тенденцію значно підвищувати показники моделей у тестах. Якщо додати цей результат, може здатися, що одна модель перевершує іншу, хоча насправді це не так.
Для o3-mini-high натомість було надано оцінку, отриману в режимі «@1», коли приймається перший результат від ШІ. Якщо порівнювати моделі за результатами «@1», Grok 3 Reasoning Beta та Grok 3 mini Reasoning демонструють гірші оцінки. Ігор Бабушкін, один зі співзасновників xAI, відреагував на претензії. Він заявив, що OpenAI публікувала подібні оманливі діаграми у минулому.
Дослідник штучного інтелекту Натан Ламберт у своєму дописі на X акцентував, що попри цю суперечку чи не найважливіший показник залишається загадкою: обчислювальні (і грошові) витрати, які потрібні кожній моделі для досягнення найкращого результату.