Тест, предложенный Аланом Тьюрингом в 1950 году, предполагает, что машину можно считать разумной, если люди не могут определить, с кем они разговаривают — с ней или с человеком.
В ходе исследования 500 участников взаимодействовали с четырьмя агентами: ChatGPT-4, ChatGPT-3.5, ELIZA и человеком. Результаты показали, что ChatGPT-4 обманул участников в 54% случаев, в то время как ChatGPT-3.5 — в 50%, а устаревшая ELIZA — только в 22%.
Эти результаты являются первой надежной эмпирической демонстрацией того, что искусственная система прошла интерактивный тест Тьюринга для двух игроков. Однако исследователи предупреждают, что это предварительная версия статьи, которая ожидает рецензирования. Тем не менее, если результаты подтвердятся, это станет первым убедительным доказательством того, что ИИ прошел тест Тьюринга.
Нелл Уотсон из Института инженеров по электротехнике и электронике (IEEE) отмечает, что машины могут создавать правдоподобные обоснования, что делает их более похожими на человека. Включение ELIZA в тест подтверждает значимость результатов, так как она показывает, что ChatGPT обманывает людей, а не простая программа.
Исследователи также подчеркивают, что изменение общественного восприятия ИИ может влиять на результаты теста Тьюринга. Низкий процент прохождения теста людьми указывает на то, что люди становятся все более осведомленными о возможностях ИИ и чаще ошибаются, принимая людей за ИИ.
Таким образом, небольшая разница в успешности прохождения теста между людьми и ChatGPT-4 является еще более убедительным доказательством интеллекта ИИ. В феврале исследователи из Стэнфорда также обнаружили, что ChatGPT может пройти версию теста Тьюринга, отвечая на личностный тест. Однако это исследование является одним из первых случаев, когда ИИ прошел надежный разговорный тест Тьюринга для двух игроков.