Дистиляція ШІ - OpenAI та Meta наслідують приклад DeepSeek / NV

Автор: Анастасія Печенюк

OpenAI, Microsoft і Meta та інші почали активніше звертатися до процесу під назвою дистиляція, який дозволив DeepSeek створити дешеві та потужні моделі ШІ.

Дистиляція передбачає, що компанії беруть велику мовну модель (вчителя), яка генерує дані для навчання меншої моделі (учня). Такий підхід дозволяє швидко передавати знання та прогнози більшої моделі меншій.

Попри те, що дистиляція широко використовується протягом багатьох років, ця техніка привернула широку увагу після того, як китайська компанія DeepSeek використала її для створення потужних і ефективних моделей ШІ на основі систем з відкритим кодом, випущених конкурентами — Meta та Alibaba. Як пише Financial Times, тепер до дистиляції прибігають і великі гравці на ринку ШІ.

Читайте також:

Назріває скандал? DeepSeek, яку нахвалював Альтман, могла вкрасти технологію OpenAI

Великі мовні моделі, такі як GPT-4 від OpenAI, Gemini від Google і Llama від Meta, вимагають величезних обсягів даних і обчислювальної потужності для розробки та підтримки. Хоча компанії не розкрили точних цифр, скільки коштує навчання великих моделей, ймовірно, мова йде про сотні мільйонів доларів. Завдяки дистиляції розробники та компанії можуть отримати доступ до можливостей цих моделей за незначну ціну. Найбільший спонсор OpenAI, Microsoft, використав GPT-4 для дистиляції своєї невеликої сім'ї моделей Phi у рамках комерційного партнерства після того, як інвестував у компанію майже 14 мільярдів доларів. При цьому команди OpenA продовжують контролювати цей процес і можуть позбавити доступу користувачів, які, на їхню думку, можуть вдаватися до дистиляції з використанням їхніх моделей.

Янн ЛеКун, головний науковий співробітник Meta зі штучного інтелекту, підтверджував, що компанія збирається використовувати цей підхід.

«У цьому і полягає вся ідея відкритого коду. Ви отримуєте прибуток від прогресу всіх і кожного, поки ці процеси відкриті», — каже він.

Читайте також:

Безпекова катастрофа. DeepSeek надсилає дані на сервери, контрольовані китайською ByteDance, не шифруючи їх

Нагадаємо, раніше OpenAI стверджувала, що DeepSeek незаконно використала її моделі для навчання своєї, що суперечить умовам обслуговування. DeepSeek не прокоментував ці заяви.

Новий тренд. OpenAI та Meta копіюють підхід DeepSeek у спробах створити дешевий і ефективний ШІ