Не такі й розумні? Інженери Apple перевірили можливості найкращих ШІ-моделей, і результати не надихають
Нове дослідження, проведене шістьма інженерами Apple, показало, що мінімальні зміни до галузевого тесту значно знижують ефективність виконання математичних завдань ChatGPT, Llama, Mistral та іншими великими мовними моделями.
Набір понад 8000 текстових математичних завдань GSM8K часто використовується як еталонний тест для перевірки комплексних можливостей міркування сучасних LLM. Однак через те, що він є дуже популярним, може ставатися так, що LLM знають відповіді на тест не тому, що справді мають належного рівня внутрішній інтелект, це просто є у їхніх навчальних даних. Саме такий ефект продемонструвало дослідження інженерів з Apple, яке опубліковане на сервісі препринтів arXiv.
«Поточні LLM не здатні до справжнього логічного міркування. Натомість вони намагаються відтворити кроки міркування, які спостерігаються в їхніх навчальних даних», — припускають дослідники на основі результатів власних тестів.
Щоб перевірити можливості ШІ, дослідники розробили новий контрольний тест під назвою GSM-Symbolic, у якому зберегли суть завдань з GSM8K, але змінили імена, числа, додали різну нерелевантну інформацію тощо. За допомогою GSM-Symbolic, було протестовано понад 20 моделей, у тому числі o1 і GPT-4o від OpenAI, Gemma 2 від Google і Llama 3 від Meta. Кожна з протестованих моделей демонструвала одне й те саме — продуктивність знижувалася на 0,3−9,2%, коли змінні у завданнях оновлювалися. При цьому точність однієї моделі варіювалася (розбіжності до 15 відсотків точності). Зміна чисел у завданні призводила до гіршої точності, ніж зміна назв.
Коли вчені додали до тестів інформацію, яка могла б здатися релевантною, але зрештою була несуттєвою, сформувавши набір завдань GSM-NoOp, протестовані великі мовні моделі показали набагато гірші результати. Спостерігалося падіння продуктивності на 17,5−65,7%, що дослідники назвали катастрофічним.