Ученые нашли слабое место искусственного интеллекта — что не может ИИ / NV

Автор: Анастасия Печенюк

Новое исследование от команды из Apple продемонстрировало, что модели искусственного интеллекта со способностью к рассуждению на самом деле не могут справиться с классическими логическими головоломками.

Хотя модели искусственного интеллекта чрезвычайно хорошо справляются с математикой и кодированием, когда дело доходит до более сложных задач, они создают лишь «иллюзию мышления», утверждает команда из Apple в новом исследовании.

Согласно статье, большие модели мышления (LRM), такие как OpenAI o1 и o3, DeepSeek R1, Claude 3.7 Sonnet Thinking и Google Gemini Flash Thinking, теряются, когда им приходится сталкиваться с более сложными задачами. Среди таких — классические логические головоломки, такие как Ханойская башня. Эта головоломка состоит из дисков, сложенных от самого большого до самого маленького на одном из трех колышков, а цель состоит в том, чтобы переместить диски на третий колышек, никогда не кладя больший диск поверх меньшего. Задачу можно усложнить, например, добавив еще дисков. Исследование показало, что Claude 3.7 Sonnet и DeepSeek R1 начинают давать сбой, когда к проблеме Ханойской башни добавляется пятый диск. Даже когда к LRM применяется большая вычислительная мощность, они все равно не справляются с более сложными головоломками.

«Результаты показывают, что все модели рассуждений демонстрируют подобную закономерность в отношении сложности: точность постепенно снижается с увеличением сложности проблемы, пока не достигнет полного коллапса (нулевой точности) за пределами специфического для модели порога сложности», — пишут исследователи.

Кроме того, исследователи обнаружили, что модели, как это ни парадоксально, начинают уменьшать свои усилия на рассуждения, несмотря на рост сложности задачи. Поэтому, когда задачи становятся сложнее, LRM «думают» меньше. Даже когда исследователи включили алгоритм в подсказку, и все, что моделям нужно было сделать, это выполнить шаги, они продолжали терпеть неудачу. Это исследование не означает, что LRM вообще не рассуждают, но демонстрирует, что они могут быть не намного умнее людей.

«Люди на самом деле имеют ряд (хорошо известных) ограничений, которые совпадают с тем, что обнаружила команда Apple. Многие (не все) люди не могут справиться с версиями Ханойской башни с 8 дисками», — отмечает эксперт по искусственному интеллекту Гэри Маркус в своем блоге.

«Иллюзия мышления». Инженеры Apple показали, как простая головоломка ставит ИИ в тупик