ChatGPT прошел тест Тьюринга. Действительно ли ИИ уже мыслит на уровне людей?

Инновации

17 сентября 2025, 20:00

Исследователи Университета Калифорнии утверждают, что во время теста Тьюринга ИИ-модель GPT-4.5 в 73% случаев признали человеком — значительно чаще, чем реальных людей при тех же условиях. Значит ли это, что машины научились думать как люди?

Как чатбот прошел тест Тьюринга

Кэмерон Джонс и Бенджамин Берген — представители кафедры когнитивных наук на базе Университета Калифорнии в Сан-Диего. Именно они весной подали свою научную статью на рецензирование. В рамках эксперимента исследователи привлекли две группы участников: студентов вуза и участников платформы Prolific, которая специализируется на ИИ.

В рамках эксперимента каждый участник в течение пяти минут вел текстовый разговор одновременно с двумя партнерами: одним реальным собеседником и одной из ИИ-систем. После этого участник должен был определить, кто из них является человеком.

Подпишитесь на NV Премиум и читайте без ограничений

Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой

Первый месяц 1 ₴. Отписаться можно в любой момент
В исследовании оценивались четыре системы: ELIZA (виртуальный собеседник 1960-х), GPT-4o, LLaMa-3.1−405B и GPT-4.5 — последним двум моделям вдобавок поставили задачу имитировать «человекоподобное поведение» по инструкции PERSONA.

Базовые системы ELIZA и GPT-4o, не оснащенные PERSONA, убедили около 23% и 21% участников. Зато GPT-4.5 при условии вести себя «по-человечески» достигла уже 73%, убедительно обходя реальных людей. Для LLaMa-3.1 этот показатель составил 56%. А вот без PERSONA успех GPT-4.5 падал до 36%, а LLaMa-3.1 — до 38%.

Всего в исследовании было учтено 576 «игр» от 158 участников, средний возраст которых составлял около 39 лет. Авторы статьи утверждают: это первое эмпирическое свидетельство того, что искусственная система проходит стандартный трехсторонний тест Тьюринга в его оригинальной формулировке.

Как видим, предложенная Аланом Тюрингом в 1950 году «игра в имитацию» — в тренде дискуссий о потенциальной «человечности» ИИ даже 75 лет спустя.

Актуален ли тест Тьюринга

Стандартное толкование теста Тюринга: C (следователь) имеет задачу определить, какой игрок — A или B — компьютер, а какой человек. / Фото: Wikimedia Commons

Свою культовую статью Вычислительные машины и разум, опубликованную в журнале Mind, Алан Тьюринг начал с вопроса: «Могут ли машины думать?». Британский математик предложил практический тест: если человек во время текстового разговора не сможет надежно отличить машину от другого человека, то можно считать, что машина демонстрирует «человеческое» поведение.

В оригинальном замысле Тьюринга «игра в имитацию» состояла из трех участников. «Следователь» общался посредством письменных сообщений с двумя скрытыми сущностями: одним человеком и одной машиной. Задачей «следователя» было определить, кто есть кто. Если машина могла последовательно вводить участника в заблуждение, она «проходила» тест. Эта структура была намеренно узкой — без синтеза речи или визуальных подсказок, — потому что Тьюринг хотел устранить посторонние факторы.

Первые попытки воплотить сценарий на практике появились в 1960-х годах. Программа ELIZA от американского ученого Джозефа Вайценбаума использовала простые скрипты, чтобы имитировать психотерапевта. Она лишь перефразировала ответы «пациента» в вопросы по ключевым словам. Но пользователи были настолько поражены, что начинали видеть в ней человека — этот феномен позже назвали «эффектом Элизы».

В начале 1970-х появился еще более амбициозный проект — PARRY психиатра Кеннета Колби, который имитировал мысли и речь параноидного шизофреника. Читая стенограммы разговоров, психиатры могли отличить PARRY от реальных пациентов только в 48% случаев. Однажды ELIZA и PARRY даже соединили сетью, чтобы они «общались» — это уже тогда показало, как легко ИИ может имитировать диалог.

Впрочем, с развитием технологий недостатки теста Тьюринга становились все более очевидными. Один из них — акцент на человекоподобной имитации, а не на настоящих когнитивных способностях. ИИ может «пройти» тест, имитируя беседу и уклоняясь от вопросов — но не демонстрируя понимания. А судьи-люди могут быть предвзятыми, учитывая стиль разговора, юмор или опечатки, а не способность к рассуждению.

Несмотря на это, тест Тьюринга стал культурным ориентиром. Отсылки к нему можно найти повсюду: от фильма Бегущий по лезвию, где вымышленный тест Войта-Кампфа измеряет эмпатию, до фильма Ex Machina, где андроид должен убедить человека в своем сознании. А в игре Detroit: Become Human первый андроид Хлоя, прошедшая тест Тьюринга, становится «лицом» индустрии по производству роботов-помощников.

Что доказал калифорнийский эксперимент

Новость о том, что «языковая модель прошла тест Тьюринга», быстро подхватили западные медиа, например The Independent. Последствия эксперимента в Университете Калифорнии описывались как «двоякие». С одной стороны, ИИ с имитацией человеческого поведения открывает новые возможности для поддержки клиентов, психологической помощи, обучения и тому подобное. С другой стороны, чем убедительнее ИИ может выдавать себя за человека, тем уязвимее становится общество к дезинформации, мошенничеству и манипуляциям.

Несмотря на громкие заголовки, эксперты все же призвали к сдержанности. Старший преподаватель Австралийского национального университета Зена Ассаад отмечает: 5-минутная разговорная иллюзия не равна человеческому интеллекту, сознанию или морали. Это важная техническая веха — но не крах границы между симуляцией и пониманием.

«Сейчас можно с уверенностью сказать, что GPT-4.5 не такой умный, как люди, хотя он может достаточно хорошо убедить некоторых людей в обратном»,— заключает Ассаад свою статью для The Conversation.

Успех GPT-4.5 был достигнут в «лабораторных» условиях: 5 минут, только текст, специальные инструкции. Тест Тьюринга не охватывает таких аспектов как этика, креативность или саморефлексия. А в быту, где есть длительное невербальное общение, результат может быть уже другим. И люди со временем учатся лучше распознавать ИИ.

Также стоит помнить, что исследование калифорнийского вуза является препринтом — то есть работой, которую еще не проверили независимые эксперты (процесс, известный как peer-review). И хотя все данные и методы работы открыты для анализа, ее выводы пока следует считать предварительными. Поэтому делать окончательные выводы еще рано, пока работа Джонса-Бергена не пройдет полную научную экспертизу.

Искусственный интеллект все еще далек от того, чтобы быть «как мы». Прохождение теста Тьюринга еще не означает появление сознания. Но уже доказывает, что машины воспроизводят маркеры человеческого общения все точнее. И с каждым таким шагом граница между имитацией и интеллектом будет становиться все более размытой.

Другие новости

Все новости