Люди проти машин. Новий тест ставить ШІ в глухий кут — ChatGPT та DeepSeek набирають менш як 5%
Некомерційна організація Arc Prize Foundation, що вимірює прогрес у створенні загального штучного інтелекту (AGI), створила новий тест, який вкрай важко дається усім провідним моделям.
Новий тест під назвою ARC-AGI-2 є другим виданням тесту ARC-AGI, який перевіряє моделі на загальний інтелект. Він розроблений для того, щоб випробувати моделі штучного інтелекту, уникаючи пастки запам’ятовування. Ця проблема дозволяє ШІ надавати відповіді рівня доктора філософії без розуміння того, що вони означають.
Тест пропонує головоломки, які людям відносно легко розв’язати через вроджену здатність сприймати нову інформацію та робити висновки.
«ARC-AGI-2 є ще складнішим для ШІ, …і зберігає при цьому таку ж відносну легкість для людей. Чисті LLM набрали 0% на ARC-AGI-2, а загальнодоступні системи штучного інтелекту набрали лише однозначні відсоткові бали. На противагу цьому, кожне завдання в ARC-AGI-2 було вирішено щонайменше 2 людьми менш ніж за 2 спроби», — кажуть розробники.
Згідно з таблицею лідерів, опублікованою Arc Prize Foundation, найдосконаліша модель OpenAI o3-low набрала 4% у цьому тесті. Google Gemini 2.0 Flash і DeepSeek R1 набрали 1,3%. Найдосконаліша модель Anthropic, Claude 3.7 з обмеженням у 8K токенів, набрала 0,9%. Для порівняння, першій версії тесту модель o3-low від OpenAI набрала 75,7%.