Проєкт LEGO. Власник TikTok розкрив подробиці своєї альтернативи GPT
IT-індустрія24 січня 2024, 23:04
У дослідженні, опублікованому у сховище електронних препринтів ArXiv, вчені описали модель, що здатна вловлювати дрібні деталі з різних модальностей у тексті, відео, аудіо та зображеннях.
Конструкція LEGO включає різні кодери та адаптери для різних типів інформації, як відео, зображення та аудіо. Кожен тип інформації проходить через свій власний кодер і адаптер.
Дослідники стверджують, що навчена ними модель демонструє точну ідентифікацію та локалізацію конкретних регіонів на зображеннях або моментів у відео.
«Завдяки навчанню на різноманітних мультимодальних і деталізованих наборах даних LEGO досягає кращого сприйняття мультимодальних вхідних даних і демонструє покращену продуктивність у завданнях, які вимагають глибокого розуміння. … У майбутній роботі ми прагнемо розширити LEGO, щоб включити додаткові модальності введення та виведення, досліджуючи складніші методи», — йдеться у висновках дослідників.
Як писав NV Техно, у грудні ByteDance звинуватили в таємному використанні технології OpenAI для створення власних моделей. Після цього OpenAI призупинив обліковий запис ByteDance, оскільки забороняє користувачам створювати конкурентні моделі штучного інтелекту за допомогою ChatGPT.