Як чатбот пройшов тест Тюрінга
Кемерон Джонс та Бенджамін Берген — представники кафедри когнітивних наук на базі Університету Каліфорнії у Сан-Дієго. Саме вони навесні подали свою наукову статтю на рецензування. В межах експерименту дослідники залучили дві групи учасників: студентів вишу та учасників платформи Prolific, яка спеціалізується на ШІ.
В межах експерименту кожен учасник протягом п’яти хвилин вів текстову розмову одночасно з двома партнерами: одним реальним співрозмовником та однією з ШІ-систем. Після цього учасник мав визначити, хто з них є людиною.
Передплатіть, щоб прочитати повністю
Нам необхідна ваша підтримка, щоб займатися якісною журналістикою
Базові системи ELIZA та GPT-4o, не оснащені PERSONA, переконали близько 23% та 21% учасників. Зате GPT-4.5 за умови поводитися «по-людськи» досягла вже 73%, переконливо обходячи реальних людей. Для LLaMa-3.1 цей показник склав 56%. А ось без PERSONA успіх GPT-4.5 падав до 36%, а LLaMa-3.1 — до 38%.
Загалом у дослідженні було враховано 576 «ігор» від 158 учасників, середній вік яких становив близько 39 років. Автори статті стверджують: це перше емпіричне свідчення того, що штучна система проходить стандартний тристоронній тест Тюрінга в його оригінальному формулюванні.
Як бачимо, запропонована Аланом Тюрінгом у 1950 році «гра в імітацію» — у тренді дискусій про потенційну «людяність» ШІ навіть 75 років по тому.
Чи актуальний тест Тюрінга
Cвою культову статтю Обчислювальні машини та розум, опубліковану в журналі Mind, Алан Тюрінг розпочав з питання: «Чи можуть машини думати?». Британський математик запропонував практичний тест: якщо людина під час текстової розмови не зможе надійно відрізнити машину від іншої людини, то можна вважати, що машина демонструє «людську» поведінку.
В оригінальному задумі Тюрінга «гра в імітацію» складалася з трьох учасників. «Слідчий» спілкувався за допомогою письмових повідомлень з двома прихованими сутностями: однією людиною та однією машиною. Завданням «слідчого» було визначити, хто є хто. Якщо машина могла послідовно вводити учасника в оману, вона «проходила» тест. Ця структура була навмисно вузькою — без синтезу мовлення чи візуальних підказок, — бо Тюрінг хотів усунути сторонні фактори.
На початку 1970-х з’явився ще амбітніший проєкт — PARRY психіатра Кеннета Колбі, який імітував думки та мовлення параноїдного шизофреніка. Читаючи стенограми розмов, психіатри могли відрізнити PARRY від реальних пацієнтів лише в 48% випадків. Одного разу ELIZA та PARRY навіть з'єднали мережею, щоб вони «спілкувалися» — це вже тоді показало, як легко ШІ може імітувати діалог.
Утім, з розвитком технологій недоліки тесту Тюрінга ставали все очевиднішими. Один з них — акцент на людиноподібній імітації, а не на справжніх когнітивних здібностях. ШІ може «пройти» тест, імітуючи бесіду та ухиляючись від питань — але не демонструючи розуміння. А судді-люди можуть бути упередженими, зважаючи на стиль розмови, гумор чи друкарські помилки, а не на здатність до міркування.
Попри це, тест Тюрінга став культурним орієнтиром. Відсилання до нього можна знайти всюди: від фільму Той, хто біжить по лезу, де вигаданий тест Войта-Кампфа вимірює емпатію, до стрічки Ex Machina, де андроїд має переконати людину у своїй свідомості. А у грі Detroit: Become Human перший андроїд Хлоя, що пройшла тест Тюрінга, стає «обличчям» індустрії з виробництва роботів-помічників.
Що довів каліфорнійський експеримент
Новину про те, що «мовна модель пройшла тест Тюрінга», швидко підхопили західні медіа, як-от The Independent. Наслідки експерименту в Університеті Каліфорнії описувалися як «двоякі». З одного боку, ШІ з імітацією людської поведінки відкриває нові можливості для підтримки клієнтів, психологічної допомоги, навчання тощо. З іншого боку, що переконливіше ШІ може видавати себе за людину, то вразливішим стає суспільство до дезінформації, шахрайства та маніпуляцій.
Попри гучні заголовки, експерти все ж закликали до стриманості. Старший викладач Австралійського національного університету Зена Ассаад наголошує: 5-хвилинна розмовна ілюзія не дорівнює людському інтелекту, свідомості чи моралі. Це важлива технічна віха — але не крах межі між симуляцією та розумінням.
«Наразі можна з упевненістю сказати, що GPT-4.5 не такий розумний, як люди, хоча він може досить добре переконати деяких людей у протилежному», — підсумовує Ассаад свою статтю для The Conversation.
Успіх GPT-4.5 був досягнутий у «лабораторних» умовах: 5 хвилин, лише текст, спеціальні інструкції. Тест Тюрінга не охоплює таких аспектів як етика, креативність чи саморефлексія. А в побуті, де є довготривале невербальне спілкування, результат може бути вже іншим. Та й люди з часом вчаться краще розпізнавати ШІ.
Також варто пам’ятати, що дослідження каліфорнійського вишу є препринтом — тобто роботою, яку ще не перевірили незалежні експерти (процес, відомий як peer-review). І хоча всі дані та методи роботи відкриті для аналізу, її висновки поки що слід вважати попередніми. Тому робити остаточні висновки ще зарано, допоки робота Джонса-Бергена не пройде повну наукову експертизу.
Штучний інтелект все ще далекий від того, щоб бути «як ми». Проходження тесту Тюрінга ще не означає появу свідомості. Але вже доводить, що машини відтворюють маркери людського спілкування дедалі точніше. І з кожним таким кроком межа між імітацією та інтелектом ставатиме все більш розмитою.