ШІ від OpenAI o3 та o4-mini мають більше галюцинацій, ніж їхні попередники / NV

Автор: Анастасія Печенюк

Нещодавно випущені моделі OpenAI o3 та o4-mini є найкращими в багатьох аспектах, але галюцинують вони більше за деякі старіші моделі.

Відповідно до внутрішніх тестів OpenAI, o3 та o4-mini, які є так званими моделями міркувань, галюцинують частіше, ніж попередні моделі міркувань o1, o1-mini та o3-mini, а також традиційні моделі, як GPT-4o. Виробник насправді не знає, чому це відбувається.

o3 та o4-mini працюють краще в деяких сферах, включаючи завдання, пов’язані з кодуванням і математикою. Але вони також частіше дають неточні відповіді та галюцинують. OpenAI виявила, що o3 галюцинував у відповідь на 33% запитань на PersonQA, внутрішньому еталоні компанії для вимірювання точності знань моделі про людей. Це приблизно вдвічі більше, ніж у попередніх моделях міркування OpenAI, o1 і o3-mini, які набрали 16% і 14,8% відповідно. o4-mini показав ще гірші результати на PersonQA — галюцинував у 48% випадків.

У своєму технічному звіті для o3 та o4-mini OpenAI пише, що потрібні додаткові дослідження, щоб зрозуміти, чому галюцинації погіршуються. Як пише TechCrunch, тестування третьою стороною, проведене некомерційною дослідницькою лабораторією Transluce, також виявило докази того, що o3 має тенденцію вигадувати дії, які він виконував у процесі отримання відповідей.

«Наша гіпотеза полягає в тому, що тип навчання з підкріпленням, який використовується для моделей серії o, може посилити проблеми, які зазвичай пом’якшуються (але не повністю стираються) стандартними процесами під час постнавчання», — сказав Ніл Чоудхурі, дослідник Transluce і колишній співробітник OpenAI.

Читайте також:

Несподіваний регрес. Найновіші ШІ від OpenAI страждають від галюцинацій навіть частіше, ніж старі