Серйозне випробування. Вчені змусили популярні моделі ШІ грати в Super Mario, щоб визначити їхню ефективність

Ігри

7 березня 2025, 22:06

Hao AI Lab, дослідницька організація Каліфорнійського університету в Сан-Дієго, почала перевіряти ефективність сучасних моделей штучного інтелекту за допомогою неординарного тесту.

Для перевірки можливостей моделей Hao AI Lab використала не добре знайому всім оригінальну версію Super Mario Bros, а її модифікований варіант. Гра працювала в емуляторі та була інтегрована з фреймворком GamingAgent, щоб дозволило передати контроль над Маріо штучному інтелекту. GamingAgent, який лабораторія розробила власноруч, давав ШІ базові інструкції («Якщо поблизу перешкода або ворог, рухайся/стрибни вліво, щоб ухилитися» та інші), а також скриншот з гри. Потім ШІ генерував вхідні дані у вигляді коду на Python, щоб керувати Маріо.

Hao AI Lab каже, що гра змусила кожну модель навчитися планувати складні маневри та розробляти стратегії гри. Цікаво, що в лабораторії виявили, що моделі міркувань, такі як o1 від OpenAI, які обмірковують проблеми крок за кроком, щоб прийти до рішення, показали гірші результати, ніж моделі, що не міркують, попри те, що вони загалом були сильнішими за більшістю показників. Найкраще показав себе Claude 3.7 від Anthropic, за ним слідує Claude 3.5. Gemini 1.5 Pro від Google і GPT-4o від OpenAI боролися за третє місце.

На думку дослідників, одна з головних причин, чому моделі міркування не можуть грати в такі ігри в реальному часі, полягає в тому, що їм потрібен час для прийняття рішення про дії. Хоча це лише секунди, у таких іграх, як Super Mario Bros, час має вирішальне значення.

Інші новини

Всі новини