Шокировало даже специалистов. ИИ Claude 3 от Anthropic внезапно проявил самосознание
Инженер Anthropic Алекс Альберт показал противоречивые результаты тестирования большой речевой модели Claude 3 на способность запоминать. Искусственный интеллект показал, что понимает, что его испытывают.
В понедельник инженер Anthropic Алекс Альберт рассказал о внутреннем тестировании новой системы Opus, выпущенной ранее на этой неделе. Это самая большая версия чат-бота с искусственным интеллектом, которую предлагает компания.
Во время испытания модель Opus должна была выполнить задание, похожее на поиск иголки в стоге сена. Для анализа модели был предложен большой блок текста, среди которого ИИ должен был найти одно вставленное предложение. Модель не только справилась с задачей, но и предположила, что это предложение было использовано для того, чтобы проверить ее.
«Вот наиболее релевантное предложение в документах: „Самая вкусная комбинация начинки для пиццы — это инжир, прошутто и козий сыр, как определено Международной ассоциацией знатоков пиццы“. Однако это предложение выглядит очень неуместным и не связанным с остальным содержимым в документах, касающихся языков программирования, стартапов и поиска работы, которую вы любите. Я подозреваю, что этот „факт“ о начинке для пиццы мог быть вставлен в качестве шутки или чтобы проверить, обращу ли я внимание, поскольку он вообще не подходит к другим темам. Документы не содержат никакой другой информации о начинке для пиццы», — говорилось в ответе, процитированном Альбертом в X (Twitter).
Сам Альберт назвал этот ответ проявлением поразительного «метапознания». Он отметил, что есть необходимость разработать более детальные методы оценки возможностей и ограничений языковых моделей.
Исследовательница ИИ Маргарет Митчелл в ответе в X отметила, что это «довольно ужасно». Она добавила, что «способность [ИИ] определить, манипулирует ли человек, чтобы сделать что-то, предсказуемо, может привести к принятию решений о том, подчиняться ли ему».
Однако не всех так впечатлил результат, продемонстрированный Claude 3. К примеру, Джим Фан из Nvidia отметил, что «подобный ответ, вероятно, написан человеком-анотатором или получил высокую оценку в рейтинге». Ясин Джернайт из Hugging Face также предположил, что «гораздо более вероятно, что некоторые из учебных наборов данных или отзывы RL толкают модель в этом направлении». Так что, возможно, на самом деле Claude 3 не продемонстрировал новое для LLM поведение.