Люди проти машин. Новий тест ставить ШІ в глухий кут — ChatGPT та DeepSeek набирають менш як 5%

29 березня 2025, 08:32

Автор: Анастасія Печенюк

Некомерційна організація Arc Prize Foundation, що вимірює прогрес у створенні загального штучного інтелекту (AGI), створила новий тест, який вкрай важко дається усім провідним моделям.

Новий тест під назвою ARC-AGI-2 є другим виданням тесту ARC-AGI, який перевіряє моделі на загальний інтелект. Він розроблений для того, щоб випробувати моделі штучного інтелекту, уникаючи пастки запам’ятовування. Ця проблема дозволяє ШІ надавати відповіді рівня доктора філософії без розуміння того, що вони означають.

Тест пропонує головоломки, які людям відносно легко розв’язати через вроджену здатність сприймати нову інформацію та робити висновки.

Читайте також:

Серйозне випробування. Вчені змусили популярні моделі ШІ грати в Super Mario, щоб визначити їхню ефективність

«ARC-AGI-2 є ще складнішим для ШІ, …і зберігає при цьому таку ж відносну легкість для людей. Чисті LLM набрали 0% на ARC-AGI-2, а загальнодоступні системи штучного інтелекту набрали лише однозначні відсоткові бали. На противагу цьому, кожне завдання в ARC-AGI-2 було вирішено щонайменше 2 людьми менш ніж за 2 спроби», — кажуть розробники.

Читайте також:

Ситуація патова. Моделі OpenAI дуже вправно брешуть — розробники не знають, що з цим робити

Згідно з таблицею лідерів, опублікованою Arc Prize Foundation, найдосконаліша модель OpenAI o3-low набрала 4% у цьому тесті. Google Gemini 2.0 Flash і DeepSeek R1 набрали 1,3%. Найдосконаліша модель Anthropic, Claude 3.7 з обмеженням у 8K токенів, набрала 0,9%. Для порівняння, першій версії тесту модель o3-low від OpenAI набрала 75,7%.

Теги: Штучний інтелект

Якщо ви знайшли помилку в тексті, виділіть її мишкою і натисніть Ctrl + Enter

Загрузка...

Увійти