Неожиданный регресс. Новейшие ИИ от OpenAI страдают от галлюцинаций даже чаще, чем старые
Недавно выпущенные модели OpenAI o3 и o4-mini являются лучшими во многих аспектах, но они галлюцинируют больше, чем некоторые старые модели.
Согласно внутренним тестам OpenAI, o3 и o4-mini, которые являются так называемыми моделями рассуждений, галлюцинируют чаще, чем предыдущие модели рассуждений o1, o1-mini и o3-mini, а также традиционные модели, такие как GPT-4o. Производитель на самом деле не знает, почему это происходит.
o3 и o4-mini работают лучше в некоторых областях, включая задачи, связанные с кодированием и математикой. Но они также чаще дают неточные ответы и галлюцинируют. OpenAI обнаружила, что o3 галлюцинировал в ответ на 33% вопросов на PersonQA, внутреннем эталоне компании для измерения точности знаний модели о людях. Это примерно вдвое больше, чем в предыдущих моделях рассуждения OpenAI, o1 и o3-mini, которые набрали 16% и 14,8% соответственно. o4-mini показал еще худшие результаты на PersonQA — галлюцинировал в 48% случаев.
В своем техническом отчете для o3 и o4-mini OpenAI пишет, что нужны дополнительные исследования, чтобы понять, почему галлюцинации ухудшаются. Как пишет TechCrunch, тестирование третьей стороной, проведенное некоммерческой исследовательской лабораторией Transluce, также выявило доказательства того, что o3 имеет тенденцию придумывать действия, которые он выполнял в процессе получения ответов.
«Наша гипотеза заключается в том, что тип обучения с подкреплением, используемый для моделей серии o, может усугубить проблемы, которые обычно смягчаются (но не полностью стираются) стандартными процессами при постобучении», — сказал Нил Чоудхури, исследователь Transluce и бывший сотрудник OpenAI.