Серьезное испытание. Ученые заставили популярные модели ИИ играть в Super Mario, чтобы определить их эффективность

7 марта 2025, 22:06

Автор: Анастасия Печенюк

Hao AI Lab, исследовательская организация Калифорнийского университета в Сан-Диего, начала проверять эффективность современных моделей искусственного интеллекта с помощью неординарного теста.

Для проверки возможностей моделей Hao AI Lab использовала не хорошо знакомую всем оригинальную версию Super Mario Bros, а ее модифицированный вариант. Игра работала в эмуляторе и была интегрирована с фреймворком GamingAgent, чтобы позволило передать контроль над Марио искусственному интеллекту. GamingAgent, который лаборатория разработала собственноручно, давал ИИ базовые инструкции («Если поблизости препятствие или враг, двигайся/прыгни влево, чтобы уклониться» и другие), а также скриншот из игры. Затем ИИ генерировал входные данные в виде кода на Python, чтобы управлять Марио.

Hao AI Lab говорит, что игра заставила каждую модель научиться планировать сложные маневры и разрабатывать стратегии игры. Интересно, что в лаборатории обнаружили, что модели рассуждений, такие как o1 от OpenAI, которые обдумывают проблемы шаг за шагом, чтобы прийти к решению, показали худшие результаты, чем модели, которые не рассуждают, несмотря на то, что они в целом были сильнее по большинству показателей. Лучше всего показал себя Claude 3.7 от Anthropic, за ним следует Claude 3.5. Gemini 1.5 Pro от Google и GPT-4o от OpenAI боролись за третье место.

https://twitter.com/haoailab/status/1895557913621795076

По мнению исследователей, одна из главных причин, по которой модели рассуждения не могут играть в такие игры в реальном времени, заключается в том, что им требуется время для принятия решения о действиях. Хотя это всего лишь секунды, в таких играх, как Super Mario Bros, время имеет решающее значение.

Войти