Счет на тысячи долларов. Оценка эффективности моделей ИИ существенно подорожала с развитием технологии
С появлением моделей рассуждения стоимость проведения отраслевых тестов и независимой оценки эффективности искусственного интеллекта выросла в несколько раз.
Согласно данным Artificial Analysis, организации по тестированию искусственного интеллекта, оценка модели рассуждения OpenAI o1 по набору из семи популярных тестов (MMLU-Pro, GPQA Diamond, Humanity’s Last Exam, LiveCodeBench, SciCode, AIME 2024 и MATH-500) стоит 2767,05 долларов США. Сравнительный анализ гибридной модели рассуждений Claude 3.7 Sonnet от Anthropic на том же наборе тестов стоит 1485,35 доллара США, тогда как тестирование OpenAI o3-mini-high стоило 344,59 доллара США за анализ.
Некоторые модели рассуждений дешевле сравнивать, чем другие. Например, Artificial Analysis потратил 141,22 доллара США на оценку OpenAI o1-mini. Но в среднем они, как правило, дорогие. В целом, Artificial Analysis потратила примерно 5200 долларов США на оценку примерно десятка моделей рассуждений, что почти вдвое превышает сумму, которую фирма потратила на анализ более 80 моделей без рассуждений (2400 долларов США).
Оценка модели OpenAI GPT-4o без рассуждений, выпущенной в мае 2024 года, стоила Artificial Analysis всего 108,85 доллара США, тогда как Claude 3.6 Sonnet — предшественник Claude 3.7 Sonnet без рассуждений — стоил 81,41 доллара США.
Как пишет TechCrunch, тестирование стало таким дорогим прежде всего потому, что новые передовые модели генерируют много токенов. По данным Artificial Analysis, o1 OpenAI сгенерировал более 44 миллионов токенов во время сравнительных тестов, что примерно в восемь раз больше, чем у GPT-4o.
Подавляющее большинство компаний, занимающихся искусственным интеллектом, взимают плату за использование модели для тестирования, поэтому это тоже может влиять на стоимость. В то же время многие лаборатории искусственного интеллекта, включая OpenAI, предоставляют организациям, занимающимся сравнительным анализом, бесплатный или субсидированный доступ к своим моделям для тестирования. Но финансирование может спровоцировать недоверие к результатам такого оценивания.