Люди против машин. Новый тест ставит ИИ в тупик — ChatGPT и DeepSeek набирают менее 5%

29 марта 2025, 08:32

Некоммерческая организация Arc Prize Foundation, измеряющая прогресс в создании общего искусственного интеллекта (AGI), создала новый тест, который крайне трудно дается всем ведущим моделям.

Новый тест под названием ARC-AGI-2 является вторым изданием теста ARC-AGI, который проверяет модели на общий интеллект. Он разработан для того, чтобы испытать модели искусственного интеллекта, избегая ловушки запоминания. Эта проблема позволяет ИИ предоставлять ответы уровня доктора философии без понимания того, что они означают.

Реклама

Тест предлагает головоломки, которые людям относительно легко решить из-за врожденной способности воспринимать новую информацию и делать выводы.

«ARC-AGI-2 еще сложнее для ИИ, …и сохраняет при этом такую же относительную легкость для людей. Чистые LLM набрали 0% на ARC-AGI-2, а общедоступные системы искусственного интеллекта набрали только однозначные процентные баллы. В противоположность этому, каждая задача в ARC-AGI-2 была решена по меньшей мере 2 людьми менее чем за 2 попытки», — говорят разработчики.

Согласно таблице лидеров, опубликованной Arc Prize Foundation, самая совершенная модель OpenAI o3-low набрала 4% в этом тесте. Google Gemini 2.0 Flash и DeepSeek R1 набрали 1,3%. Самая совершенная модель Anthropic, Claude 3.7 с ограничением в 8K токенов, набрала 0,9%. Для сравнения, в первой версии теста модель o3-low от OpenAI набрала 75,7%.

Показать ещё новости