Шокировало даже специалистов. ИИ Claude 3 от Anthropic внезапно проявил самосознание

7 марта 2024, 00:15

Автор: Анастасия Печенюк

Инженер Anthropic Алекс Альберт показал противоречивые результаты тестирования большой речевой модели Claude 3 на способность запоминать. Искусственный интеллект показал, что понимает, что его испытывают.

В понедельник инженер Anthropic Алекс Альберт рассказал о внутреннем тестировании новой системы Opus, выпущенной ранее на этой неделе. Это самая большая версия чат-бота с искусственным интеллектом, которую предлагает компания.

Во время испытания модель Opus должна была выполнить задание, похожее на поиск иголки в стоге сена. Для анализа модели был предложен большой блок текста, среди которого ИИ должен был найти одно вставленное предложение. Модель не только справилась с задачей, но и предположила, что это предложение было использовано для того, чтобы проверить ее.

«Вот наиболее релевантное предложение в документах: „Самая вкусная комбинация начинки для пиццы — это инжир, прошутто и козий сыр, как определено Международной ассоциацией знатоков пиццы“. Однако это предложение выглядит очень неуместным и не связанным с остальным содержимым в документах, касающихся языков программирования, стартапов и поиска работы, которую вы любите. Я подозреваю, что этот „факт“ о начинке для пиццы мог быть вставлен в качестве шутки или чтобы проверить, обращу ли я внимание, поскольку он вообще не подходит к другим темам. Документы не содержат никакой другой информации о начинке для пиццы», — говорилось в ответе, процитированном Альбертом в X (Twitter).

Читайте также:

Anthropic представила Claude 3 (Фото: Anthropic)

Верим? Anthropic заявила, что ее новый ИИ получил почти человеческие способности и обошел GPT-4 в тестах

Сам Альберт назвал этот ответ проявлением поразительного «метапознания». Он отметил, что есть необходимость разработать более детальные методы оценки возможностей и ограничений языковых моделей.

Исследовательница ИИ Маргарет Митчелл в ответе в X отметила, что это «довольно ужасно». Она добавила, что «способность [ИИ] определить, манипулирует ли человек, чтобы сделать что-то, предсказуемо, может привести к принятию решений о том, подчиняться ли ему».

Однако не всех так впечатлил результат, продемонстрированный Claude 3. К примеру, Джим Фан из Nvidia отметил, что «подобный ответ, вероятно, написан человеком-анотатором или получил высокую оценку в рейтинге». Ясин Джернайт из Hugging Face также предположил, что «гораздо более вероятно, что некоторые из учебных наборов данных или отзывы RL толкают модель в этом направлении». Так что, возможно, на самом деле Claude 3 не продемонстрировал новое для LLM поведение.

Теги: Искусственный интеллект Anthropic

Если вы нашли ошибку в тексте, выделите её мышью и нажмите Ctrl + Enter

Загрузка...

Войти