ChatGPT прошел тест Тьюринга — стал ли ИИ мыслить как человек / NV

Автор: Артем Прокопенко

Исследователи Университета Калифорнии утверждают, что во время теста Тьюринга ИИ-модель GPT-4.5 в 73% случаев признали человеком — значительно чаще, чем реальных людей при тех же условиях. Значит ли это, что машины научились думать как люди?

Как чатбот прошел тест Тьюринга

Кэмерон Джонс и Бенджамин Берген — представители кафедры когнитивных наук на базе Университета Калифорнии в Сан-Диего. Именно они весной подали свою научную статью на рецензирование. В рамках эксперимента исследователи привлекли две группы участников: студентов вуза и участников платформы Prolific, которая специализируется на ИИ.

В рамках эксперимента каждый участник в течение пяти минут вел текстовый разговор одновременно с двумя партнерами: одним реальным собеседником и одной из ИИ-систем. После этого участник должен был определить, кто из них является человеком.

Подпишитесь на NV Премиум и читайте без ограничений

Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой

Подписаться Я уже подписчик

Первый месяц 1 ₴. Отписаться можно в любой момент

В исследовании оценивались четыре системы: ELIZA (виртуальный собеседник 1960-х), GPT-4o, LLaMa-3.1−405B и GPT-4.5 — последним двум моделям вдобавок поставили задачу имитировать «человекоподобное поведение» по инструкции PERSONA.

Базовые системы ELIZA и GPT-4o, не оснащенные PERSONA, убедили около 23% и 21% участников. Зато GPT-4.5 при условии вести себя «по-человечески» достигла уже 73%, убедительно обходя реальных людей. Для LLaMa-3.1 этот показатель составил 56%. А вот без PERSONA успех GPT-4.5 падал до 36%, а LLaMa-3.1 — до 38%.

Всего в исследовании было учтено 576 «игр» от 158 участников, средний возраст которых составлял около 39 лет. Авторы статьи утверждают: это первое эмпирическое свидетельство того, что искусственная система проходит стандартный трехсторонний тест Тьюринга в его оригинальной формулировке.

Как видим, предложенная Аланом Тюрингом в 1950 году «игра в имитацию» — в тренде дискуссий о потенциальной «человечности» ИИ даже 75 лет спустя.

Актуален ли тест Тьюринга

Стандартное толкование теста Тюринга: C (следователь) имеет задачу определить, какой игрок — A или B — компьютер, а какой человек. / Фото: Wikimedia Commons

Свою культовую статью Вычислительные машины и разум, опубликованную в журнале Mind, Алан Тьюринг начал с вопроса: «Могут ли машины думать?». Британский математик предложил практический тест: если человек во время текстового разговора не сможет надежно отличить машину от другого человека, то можно считать, что машина демонстрирует «человеческое» поведение.

В оригинальном замысле Тьюринга «игра в имитацию» состояла из трех участников. «Следователь» общался посредством письменных сообщений с двумя скрытыми сущностями: одним человеком и одной машиной. Задачей «следователя» было определить, кто есть кто. Если машина могла последовательно вводить участника в заблуждение, она «проходила» тест. Эта структура была намеренно узкой — без синтеза речи или визуальных подсказок, — потому что Тьюринг хотел устранить посторонние факторы.

Первые попытки воплотить сценарий на практике появились в 1960-х годах. Программа ELIZA от американского ученого Джозефа Вайценбаума использовала простые скрипты, чтобы имитировать психотерапевта. Она лишь перефразировала ответы «пациента» в вопросы по ключевым словам. Но пользователи были настолько поражены, что начинали видеть в ней человека — этот феномен позже назвали «эффектом Элизы».

В начале 1970-х появился еще более амбициозный проект — PARRY психиатра Кеннета Колби, который имитировал мысли и речь параноидного шизофреника. Читая стенограммы разговоров, психиатры могли отличить PARRY от реальных пациентов только в 48% случаев. Однажды ELIZA и PARRY даже соединили сетью, чтобы они «общались» — это уже тогда показало, как легко ИИ может имитировать диалог.

Впрочем, с развитием технологий недостатки теста Тьюринга становились все более очевидными. Один из них — акцент на человекоподобной имитации, а не на настоящих когнитивных способностях. ИИ может «пройти» тест, имитируя беседу и уклоняясь от вопросов — но не демонстрируя понимания. А судьи-люди могут быть предвзятыми, учитывая стиль разговора, юмор или опечатки, а не способность к рассуждению.

Несмотря на это, тест Тьюринга стал культурным ориентиром. Отсылки к нему можно найти повсюду: от фильма Бегущий по лезвию, где вымышленный тест Войта-Кампфа измеряет эмпатию, до фильма Ex Machina, где андроид должен убедить человека в своем сознании. А в игре Detroit: Become Human первый андроид Хлоя, прошедшая тест Тьюринга, становится «лицом» индустрии по производству роботов-помощников.

Что доказал калифорнийский эксперимент

Новость о том, что «языковая модель прошла тест Тьюринга», быстро подхватили западные медиа, например The Independent. Последствия эксперимента в Университете Калифорнии описывались как «двоякие». С одной стороны, ИИ с имитацией человеческого поведения открывает новые возможности для поддержки клиентов, психологической помощи, обучения и тому подобное. С другой стороны, чем убедительнее ИИ может выдавать себя за человека, тем уязвимее становится общество к дезинформации, мошенничеству и манипуляциям.

Несмотря на громкие заголовки, эксперты все же призвали к сдержанности. Старший преподаватель Австралийского национального университета Зена Ассаад отмечает: 5-минутная разговорная иллюзия не равна человеческому интеллекту, сознанию или морали. Это важная техническая веха — но не крах границы между симуляцией и пониманием.

ChatGPT прошел тест Тьюринга. Действительно ли ИИ уже мыслит на уровне людей?

Как чатбот прошел тест Тьюринга

Подпишитесь на NV Премиум и читайте без ограничений

Актуален ли тест Тьюринга

Что доказал калифорнийский эксперимент