xAI Ілона Маска могла набрехати про ефективність Grok-3 / NV

Автор: Анастасія Печенюк

Компанію Ілона Маска xAI звинуватили у публікації оманливих результатів тестування її останнього штучного інтелекту Grok 3, у яких цей продукт перевершує моделі OpenAI.

У дописі у своєму блозі xAI опублікувала графік, що показує продуктивність Grok 3 у розв’язуванні завдань AIME 2025. Ця збірка містить складні математичні запитання. Хоча деякі експерти ставлять під сумнів доречність використання AIME як еталона для ШІ, ця і старіші версії тесту зазвичай використовуються для перевірки математичних здібностей моделі.

Графік xAI показав два варіанти Grok 3, Grok 3 Reasoning Beta та Grok 3 mini Reasoning, найефективнішу доступну модель OpenAI, o3-mini-high, та інші продукти компанії, що створила ChatGPT. Також моделі було порівняно з продуктами DeepSeek. Продукти xAI, за цими даними, перевершили моделі конкурентів.

Читайте також:

Небезпечний шлях. Маск хоче навчати ШІ на даних, які він сам згенерує

Водночас команда OpenAI розкритикувала ці результати як оманливі. Зокрема, графік xAI не включав оцінку o3-mini-high за AIME 2025 в режимі «cons@64», який було використано для Grok. Цей режим тестування приймає відповіді на запитання, які найчастіше генеруються, як остаточні відповіді, і має тенденцію значно підвищувати показники моделей у тестах. Якщо додати цей результат, може здатися, що одна модель перевершує іншу, хоча насправді це не так.

Читайте також:

«Найрозумніші на Землі». xAI Ілона Маска випустила нове сімейство моделей ШІ

Для o3-mini-high натомість було надано оцінку, отриману в режимі «@1», коли приймається перший результат від ШІ. Якщо порівнювати моделі за результатами «@1», Grok 3 Reasoning Beta та Grok 3 mini Reasoning демонструють гірші оцінки. Ігор Бабушкін, один зі співзасновників xAI, відреагував на претензії. Він заявив, що OpenAI публікувала подібні оманливі діаграми у минулому.

Дослідник штучного інтелекту Натан Ламберт у своєму дописі на X акцентував, що попри цю суперечку чи не найважливіший показник залишається загадкою: обчислювальні (і грошові) витрати, які потрібні кожній моделі для досягнення найкращого результату.

Нечесна гра. xAI могла спотворити результати галузевих тестів на свою користь