ChatGPT прошел тест Тьюринга. Действительно ли ИИ уже мыслит на уровне людей?
Инновации17 сентября 2025, 20:00
Как чатбот прошел тест Тьюринга
Кэмерон Джонс и Бенджамин Берген — представители кафедры когнитивных наук на базе Университета Калифорнии в Сан-Диего. Именно они весной подали свою научную статью на рецензирование. В рамках эксперимента исследователи привлекли две группы участников: студентов вуза и участников платформы Prolific, которая специализируется на ИИ.
В рамках эксперимента каждый участник в течение пяти минут вел текстовый разговор одновременно с двумя партнерами: одним реальным собеседником и одной из ИИ-систем. После этого участник должен был определить, кто из них является человеком.
Подпишитесь на NV Премиум и читайте без ограничений
Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой
Базовые системы ELIZA и GPT-4o, не оснащенные PERSONA, убедили около 23% и 21% участников. Зато GPT-4.5 при условии вести себя «по-человечески» достигла уже 73%, убедительно обходя реальных людей. Для LLaMa-3.1 этот показатель составил 56%. А вот без PERSONA успех GPT-4.5 падал до 36%, а LLaMa-3.1 — до 38%.
Всего в исследовании было учтено 576 «игр» от 158 участников, средний возраст которых составлял около 39 лет. Авторы статьи утверждают: это первое эмпирическое свидетельство того, что искусственная система проходит стандартный трехсторонний тест Тьюринга в его оригинальной формулировке.
Как видим, предложенная Аланом Тюрингом в 1950 году «игра в имитацию» — в тренде дискуссий о потенциальной «человечности» ИИ даже 75 лет спустя.
Актуален ли тест Тьюринга
Свою культовую статью Вычислительные машины и разум, опубликованную в журнале Mind, Алан Тьюринг начал с вопроса: «Могут ли машины думать?». Британский математик предложил практический тест: если человек во время текстового разговора не сможет надежно отличить машину от другого человека, то можно считать, что машина демонстрирует «человеческое» поведение.
В оригинальном замысле Тьюринга «игра в имитацию» состояла из трех участников. «Следователь» общался посредством письменных сообщений с двумя скрытыми сущностями: одним человеком и одной машиной. Задачей «следователя» было определить, кто есть кто. Если машина могла последовательно вводить участника в заблуждение, она «проходила» тест. Эта структура была намеренно узкой — без синтеза речи или визуальных подсказок, — потому что Тьюринг хотел устранить посторонние факторы.
В начале 1970-х появился еще более амбициозный проект — PARRY психиатра Кеннета Колби, который имитировал мысли и речь параноидного шизофреника. Читая стенограммы разговоров, психиатры могли отличить PARRY от реальных пациентов только в 48% случаев. Однажды ELIZA и PARRY даже соединили сетью, чтобы они «общались» — это уже тогда показало, как легко ИИ может имитировать диалог.
Впрочем, с развитием технологий недостатки теста Тьюринга становились все более очевидными. Один из них — акцент на человекоподобной имитации, а не на настоящих когнитивных способностях. ИИ может «пройти» тест, имитируя беседу и уклоняясь от вопросов — но не демонстрируя понимания. А судьи-люди могут быть предвзятыми, учитывая стиль разговора, юмор или опечатки, а не способность к рассуждению.
Несмотря на это, тест Тьюринга стал культурным ориентиром. Отсылки к нему можно найти повсюду: от фильма Бегущий по лезвию, где вымышленный тест Войта-Кампфа измеряет эмпатию, до фильма Ex Machina, где андроид должен убедить человека в своем сознании. А в игре Detroit: Become Human первый андроид Хлоя, прошедшая тест Тьюринга, становится «лицом» индустрии по производству роботов-помощников.
Что доказал калифорнийский эксперимент
Новость о том, что «языковая модель прошла тест Тьюринга», быстро подхватили западные медиа, например The Independent. Последствия эксперимента в Университете Калифорнии описывались как «двоякие». С одной стороны, ИИ с имитацией человеческого поведения открывает новые возможности для поддержки клиентов, психологической помощи, обучения и тому подобное. С другой стороны, чем убедительнее ИИ может выдавать себя за человека, тем уязвимее становится общество к дезинформации, мошенничеству и манипуляциям.
Несмотря на громкие заголовки, эксперты все же призвали к сдержанности. Старший преподаватель Австралийского национального университета Зена Ассаад отмечает: 5-минутная разговорная иллюзия не равна человеческому интеллекту, сознанию или морали. Это важная техническая веха — но не крах границы между симуляцией и пониманием.
«Сейчас можно с уверенностью сказать, что GPT-4.5 не такой умный, как люди, хотя он может достаточно хорошо убедить некоторых людей в обратном»,— заключает Ассаад свою статью для The Conversation.
Успех GPT-4.5 был достигнут в «лабораторных» условиях: 5 минут, только текст, специальные инструкции. Тест Тьюринга не охватывает таких аспектов как этика, креативность или саморефлексия. А в быту, где есть длительное невербальное общение, результат может быть уже другим. И люди со временем учатся лучше распознавать ИИ.
Также стоит помнить, что исследование калифорнийского вуза является препринтом — то есть работой, которую еще не проверили независимые эксперты (процесс, известный как peer-review). И хотя все данные и методы работы открыты для анализа, ее выводы пока следует считать предварительными. Поэтому делать окончательные выводы еще рано, пока работа Джонса-Бергена не пройдет полную научную экспертизу.
Искусственный интеллект все еще далек от того, чтобы быть «как мы». Прохождение теста Тьюринга еще не означает появление сознания. Но уже доказывает, что машины воспроизводят маркеры человеческого общения все точнее. И с каждым таким шагом граница между имитацией и интеллектом будет становиться все более размытой.