Новый тренд. OpenAI и Meta копируют подход DeepSeek в попытках создать дешевый и эффективный ИИ
OpenAI, Microsoft и Meta и другие начали активнее обращаться к процессу под названием дистилляция, который позволил DeepSeek создать дешевые и мощные модели ИИ.
Дистилляция предполагает, что компании берут большую языковую модель (учителя), которая генерирует данные для обучения меньшей модели (ученика). Такой подход позволяет быстро передавать знания и прогнозы большей модели меньшей модели.
Несмотря на то, что дистилляция широко используется в течение многих лет, эта техника привлекла широкое внимание после того, как китайская компания DeepSeek использовала ее для создания мощных и эффективных моделей ИИ на основе систем с открытым кодом, выпущенных конкурентами — Meta и Alibaba. Как пишет Financial Times, теперь к дистилляции прибегают и крупные игроки на рынке ИИ.
Большие языковые модели, такие как GPT-4 от OpenAI, Gemini от Google и Llama от Meta, требуют огромных объемов данных и вычислительной мощности для разработки и поддержки. Хотя компании не раскрыли точных цифр, сколько стоит обучение больших моделей, вероятно, речь идет о сотнях миллионов долларов. Благодаря дистилляции разработчики и компании могут получить доступ к возможностям этих моделей за незначительную цену. Крупнейший спонсор OpenAI, Microsoft, использовал GPT-4 для дистилляции своей небольшой семьи моделей Phi. При этом команды OpenA продолжают контролировать этот процесс и могут лишить доступа пользователей, которые, по их мнению, могут прибегать к дистилляции с использованием их моделей.
Янн ЛеКун, главный научный сотрудник Meta по искусственному интеллекту, подтверждал, что компания собирается использовать этот подход.
«В этом и заключается вся идея открытого кода. Вы получаете прибыль от прогресса всех и каждого, пока эти процессы открыты», — говорит он.
Напомним, ранее OpenAI утверждала, что DeepSeek незаконно использовала ее модели для обучения своей, что противоречит условиям обслуживания. DeepSeek не прокомментировал эти заявления.