Прощайте, галлюцинации? Исследователи создали систему, которая находит ошибки в ответах ИИ

2 апреля 2024, 09:05

Автор: Анастасия Печенюк

Исследователи из Google DeepMind и Стэнфордского университета представили новую систему автоматизированного оценивания SAFE, которая анализирует ответы, предоставленные искусственным интеллектом, и ищет ложные.

Проверка ответов чат-ботов с искусственным интеллектом — крайне непростой процесс, который полагается в значительной степени на живых людей — аннотаторов. SAFE, разработанная учеными в сфере ИИ, не только позволяет легко масштабировать процесс проверки, но и демонстрирует лучшую производительность, говорится в статье исследователей, доступной на arXiv.

В рамках исследования специалисты использовали до тринадцати языковых моделей, охватывающих четыре семейства моделей, включая Gemini, GPT, Claude и PaLM-2. Процесс проверки предусматривал сложную многоэтапную систему рассуждения, в которой оценивался каждый факт, предоставленный ИИ, в контексте результатов поиска.

С помощью этих больших языковых моделей (LLM) исследователи сформировали набор данных из около 16 тысяч отдельных фактов. Затем каждый факт независимо проверялся на точность с помощью Поиска Google. Также проверялась релевантность отдельных фактов предоставленному запросу. В 72% случаев оценки ответов от SAFE совпадали с оценками людей-анотаторов. В целенаправленном анализе 100 противоречивых фактов определения SAFE были правильными в 76% случаев.

С помощью такой проверки удалось значительно повысить точность моделей. В частности, GPT-4-Turbo достиг уровня фактической точности в 95%. Эта система также позволяет повышать правдивость и надежность информации, созданной LLM, уменьшая затраты на этот процесс. По словам исследователей, система в 20 раз дешевле аннотаций, созданных людьми.

Войти