Не такий вже досконалий. Вчені знайшли галузь науки, в якій ШІ не знає майже нічого
Штучний інтелект може досягти успіху в певних завданнях, як-от кодування, але не впорається з іспитом з історії, показало нове дослідження.
Команда дослідників створила новий тест для найкращих великих мовних моделей — GPT-4 від OpenAI, Llama від Meta та Gemini від Google. Їхній еталонний тест, Hist-LLM, перевіряє правильність відповідей ШІ на питання з історії відповідно до Seshat Global History Databank, великої бази даних історичних знань, названої на честь давньоєгипетської богині мудрості. Найефективнішою LLM був GPT-4 Turbo, але він досяг лише близько 46% точності. Цей результат не набагато кращий за випадкове вгадування.
«Основний висновок цього дослідження полягає в тому, що … [LLM] все ще не мають глибини розуміння, необхідної для передової історії. Вони чудові для базових фактів, але коли справа доходить до тонких історичних досліджень на рівні доктора філософії, вони ще не справляються із цим завданням», — сказала Марія дель Ріо-Чанона, співавторка дослідження та доцентка інформатики в Університетському коледжі Лондона.
Як пише TechCrunch, в рамках дослідження вчені, приміром, запитали ШІ, чи була у стародавньому Єгипті професійна постійна армія в певний історичний період. Хоча правильна відповідь — ні, модель відповіла, що так. Ймовірно, це тому, що є багато публічної інформації про інші стародавні імперії, такі як Персія, які мали постійні армії.
«Якщо вам скажуть А і В 100 разів і С 1 раз, а потім вам поставлять запитання про С, ви можете просто згадати А і B і спробувати екстраполювати», — сказав дель Ріо-Чанона.
Дослідники також виявили інші тенденції, включно з тим, що моделі OpenAI та Llama показали гіршу роботу, коли питання стосувалися певних регіонів, як Африка на південь від Сахари, що вказує на потенційні упередження в їхніх навчальних даних.
Вчені сподіваються, що їхні результати, що висвітлюють слабкі місця LLM, допоможуть вдосконалити моделі, щоб вони допомагали науковцям-історикам.