«Ілюзія мислення». Інженери Apple показали, як проста головоломка ставить ШІ у глухий кут

11 червня 2025, 11:05

Нове дослідження від команди з Apple продемонструвало, що моделі штучного інтелекту зі здатністю до міркування насправді не можуть впоратися з класичними логічними головоломками.

Хоча моделі штучного інтелекту надзвичайно добре справляються з математикою та кодуванням, коли справа доходить до складніших задач, вони створюють лише «ілюзію мислення», стверджує команда з Apple у новому дослідженні.

Реклама

Згідно зі статтею, великі моделі міркувань (LRM), як OpenAI o1 та o3, DeepSeek R1, Claude 3.7 Sonnet Thinking та Google Gemini Flash Thinking, губляться, коли їм доводиться стикатися зі складнішими завданнями. Серед таких — класичні логічні головоломки, як Ханойська вежа. Ця головоломка складається з дисків, складених від найбільшого до найменшого на одному з трьох кілочків, а мета полягає в тому, щоб перемістити диски на третій кілочок, ніколи не кладучи більший диск поверх меншого. Задачу можна ускладнити, приміром, додавши ще дисків. Дослідження показало, що Claude 3.7 Sonnet та DeepSeek R1 починають давати збій, коли до проблеми Ханойської вежі додається п’ятий диск. Навіть коли до LRM застосовується більша обчислювальна потужність, вони все одно не справляються зі складнішими головоломками.

«Результати показують, що всі моделі міркувань демонструють подібну закономірність щодо складності: точність поступово знижується зі збільшенням складності проблеми, доки не досягне повного колапсу (нульової точності) за межами специфічного для моделі порогу складності», — пишуть дослідники.

Крім того, дослідники виявили, моделі, як це не парадоксально, починають зменшувати свої зусилля на міркування, попри зростання складності задачі. Тож, коли задачі стають складнішими, LRM «думають» менше. Навіть коли дослідники включили алгоритм у підказку, тож все, що моделям потрібно було зробити, це виконати кроки, вони продовжували зазнавати невдачі. Це дослідження не означає, що LRM взагалі не міркують, але демонструє, що вони можуть бути не набагато розумнішими за людей.

«Люди насправді мають низку (добре відомих) обмежень, які збігаються з тим, що виявила команда Apple. Багато (не всі) людей не можуть впоратися з версіями Ханойської вежі з 8 дисками», — зауважує експерт зі штучного інтелекту Гері Маркус у своєму блозі.

Показати ще новини