Нечестная игра. xAI могла исказить результаты отраслевых тестов в свою пользу

24 февраля 2025, 14:50

Компанию Илона Маска xAI обвинили в публикации обманчивых результатов тестирования ее последнего искусственного интеллекта Grok 3, в которых этот продукт превосходит модели OpenAI.

В заметке в своем блоге xAI опубликовала график, показывающий производительность Grok 3 в решении задач AIME 2025. Этот сборник содержит сложные математические вопросы. Хотя некоторые эксперты ставят под сомнение уместность использования AIME в качестве эталона для ИИ, эта и более старые версии теста обычно используются для проверки математических способностей модели.

Реклама

График xAI показал два варианта Grok 3, Grok 3 Reasoning Beta и Grok 3 mini Reasoning, самую эффективную доступную модель OpenAI, o3-mini-high, и другие продукты компании, создавшей ChatGPT. Также модели были сравнены с продуктами DeepSeek. Продукты xAI, по этим данным, превзошли модели конкурентов.

В то же время команда OpenAI раскритиковала эти результаты как обманчивые. В частности, график xAI не включал оценку o3-mini-high по AIME 2025 в режиме «cons@64», который был использован для Grok. Этот режим тестирования принимает ответы на вопросы, которые чаще всего генерируются, как окончательные ответы, и имеет тенденцию значительно повышать показатели моделей в тестах. Если добавить этот результат, может показаться, что одна модель превосходит другую, хотя на самом деле это не так.

Для o3-mini-high вместо этого была предоставлена оценка, полученная в режиме «@1», когда принимается первый результат от ИИ. Если сравнивать модели по результатам «@1», Grok 3 Reasoning Beta и Grok 3 mini Reasoning демонстрируют худшие оценки. Игорь Бабушкин, один из соучредителей xAI, отреагировал на претензии. Он заявил, что OpenAI публиковала подобные обманчивые диаграммы в прошлом.

Исследователь искусственного интеллекта Натан Ламберт в своей заметке на X акцентировал, что несмотря на этот спор едва ли не самый важный показатель остается загадкой: вычислительные (и денежные) затраты, которые нужны каждой модели для достижения наилучшего результата.

Показать ещё новости