Не такі й розумні? Інженери Apple перевірили можливості найкращих ШІ-моделей, і результати не надихають

16 жовтня 2024, 11:05

Нове дослідження, проведене шістьма інженерами Apple, показало, що мінімальні зміни до галузевого тесту значно знижують ефективність виконання математичних завдань ChatGPT, Llama, Mistral та іншими великими мовними моделями.

Набір понад 8000 текстових математичних завдань GSM8K часто використовується як еталонний тест для перевірки комплексних можливостей міркування сучасних LLM. Однак через те, що він є дуже популярним, може ставатися так, що LLM знають відповіді на тест не тому, що справді мають належного рівня внутрішній інтелект, це просто є у їхніх навчальних даних. Саме такий ефект продемонструвало дослідження інженерів з Apple, яке опубліковане на сервісі препринтів arXiv.

Реклама

«Поточні LLM не здатні до справжнього логічного міркування. Натомість вони намагаються відтворити кроки міркування, які спостерігаються в їхніх навчальних даних», — припускають дослідники на основі результатів власних тестів.

Дослідники показали, як змінюється ефективність ШІ після коригування тестів (Фото: Іман Мірзаде, Кейван Алізаде, Хуман Шахрохі та інші / arXiv)
Дослідники показали, як змінюється ефективність ШІ після коригування тестів / Фото: Іман Мірзаде, Кейван Алізаде, Хуман Шахрохі та інші / arXiv

Щоб перевірити можливості ШІ, дослідники розробили новий контрольний тест під назвою GSM-Symbolic, у якому зберегли суть завдань з GSM8K, але змінили імена, числа, додали різну нерелевантну інформацію тощо. За допомогою GSM-Symbolic, було протестовано понад 20 моделей, у тому числі o1 і GPT-4o від OpenAI, Gemma 2 від Google і Llama 3 від Meta. Кожна з протестованих моделей демонструвала одне й те саме — продуктивність знижувалася на 0,3−9,2%, коли змінні у завданнях оновлювалися. При цьому точність однієї моделі варіювалася (розбіжності до 15 відсотків точності). Зміна чисел у завданні призводила до гіршої точності, ніж зміна назв.

Коли вчені додали до тестів інформацію, яка могла б здатися релевантною, але зрештою була несуттєвою, сформувавши набір завдань GSM-NoOp, протестовані великі мовні моделі показали набагато гірші результати. Спостерігалося падіння продуктивності на 17,5−65,7%, що дослідники назвали катастрофічним.

Показати ще новини