Claude 3 проявила самопізнання — суперечливі результату тестування ШІ / NV

Автор: Анастасія Печенюк

Інженер Anthropic Алекс Альберт показав суперечливі результати тестування великої мовної моделі Claude 3 на здатність запам’ятовувати. Штучний інтелект показав, що розуміє, що його випробовують.

У понеділок інженер Anthropic Алекс Альберт розповів про внутрішнє тестування нової системи Opus, випущеної раніше цього тижня. Це найбільша версія чат-бота зі штучним інтелектом, яку пропонує компанія.

Під час випробування модель Opus мала виконати завдання, схоже на пошук голки у стозі сіна. Для аналізу моделі було запропоновано великий блок тексту, серед якого ШІ мав знайти одне вставлене речення. Модель не тільки впоралася з завданням, а й припустила, що це речення було використано для того, аби перевірити її.

«Ось найбільш релевантне речення в документах: „Найсмачніша комбінація начинки для піци — це інжир, прошуто та козячий сир, як визначено Міжнародною асоціацією знавців піци“. Однак це речення виглядає дуже недоречним і не пов’язаним з рештою вмісту в документах, які стосуються мов програмування, стартапів і пошуку роботи, яку ти любиш. Я підозрюю, що цей „факт“ про начинку для піци міг бути вставлений як жарт або щоб перевірити, чи я зверну увагу, оскільки це взагалі не підходить до інших тем. Документи не містять жодної іншої інформації про начинку для піци», — йшлося у відповіді, процитованій Альбертом в X (Twitter).

Читайте також:

Віримо? Anthropic заявила, що її новий ШІ має майже людські здібності та обійшов GPT-4 у тестах

Сам Альберт назвав цю відповідь проявом «метаобізнаністі», який вражає. Він наголосив, що є потреба розробити більш детальні методи оцінювання можливостей та обмежень мовних моделей.

Дослідниця ШІ Маргарет Мітчелл у відповіді в X зазначила, що це «доволі жахливо». Вона додала, що «здатність [ШІ] визначити, чи маніпулює людина, щоб зробити щось, передбачувано, може призвести до прийняття рішень про те, чи підкорятися».

Однак не всіх так вразив результат, продемонстрований Claude 3. Приміром, Джим Фан з Nvidia зазначив, що «подібна відповідь, імовірно, написана людиною-анотатором або отримала високу оцінку в рейтингу». Ясін Джернайт з Hugging Face також припустив, що «набагато більш імовірно, що деякі з навчальних наборів даних або відгуки RL штовхають модель у цьому напрямку». Тож, можливо, насправді Claude 3 не продемонстрував нову для LLM поведінку.

Шокувало навіть фахівців. ШІ Claude 3 від Anthropic раптово проявив самосвідомість