ByteDance запускает большую языковую модель LEGO / NV

Автор: Анастасия Печенюк

Китайский технологический гигант ByteDance, являющийся владельцем TikTok, планирует запустить большую языковую модель (LLM) под названием LEGO.

В исследовании, опубликованном в хранилище электронных препринтов ArXiv, ученые описали модель, способную улавливать мелкие детали из разных модальностей в тексте, видео, аудио и изображениях.

Конструкция LEGO включает в себя различные кодеры и адаптеры для различных типов информации, таких как видео, изображения и аудио. Каждый тип информации проходит через свой собственный кодер и адаптер.

Исследователи утверждают, что обученная ими модель демонстрирует точную идентификацию и локализацию конкретных регионов на изображениях или моментов в видео.

«Благодаря обучению на различных мультимодальных и детализированных наборах данных LEGO достигает лучшего восприятия мультимодальных входных данных и демонстрирует улучшенную производительность в задачах, требующих глубокого понимания. … В будущей работе мы стремимся расширить LEGO, чтобы включить дополнительные модальности ввода и вывода, исследуя более сложные методы», — говорится в выводах исследователей.

Как писал NV Техно, в декабре ByteDance обвинили в тайном использовании технологии OpenAI для создания собственных моделей. После этого OpenAI приостановил учетную запись ByteDance, поскольку пользователям запрещено создавать конкурентные модели искусственного интеллекта с помощью ChatGPT.

Проект LEGO. Владелец TikTok раскрыл подробности своей альтернативы GPT