Проект LEGO. Владелец TikTok раскрыл подробности своей альтернативы GPT
IT-индустрия24 января 2024, 23:04
В исследовании, опубликованном в хранилище электронных препринтов ArXiv, ученые описали модель, способную улавливать мелкие детали из разных модальностей в тексте, видео, аудио и изображениях.
Конструкция LEGO включает в себя различные кодеры и адаптеры для различных типов информации, таких как видео, изображения и аудио. Каждый тип информации проходит через свой собственный кодер и адаптер.
Исследователи утверждают, что обученная ими модель демонстрирует точную идентификацию и локализацию конкретных регионов на изображениях или моментов в видео.
«Благодаря обучению на различных мультимодальных и детализированных наборах данных LEGO достигает лучшего восприятия мультимодальных входных данных и демонстрирует улучшенную производительность в задачах, требующих глубокого понимания. … В будущей работе мы стремимся расширить LEGO, чтобы включить дополнительные модальности ввода и вывода, исследуя более сложные методы», — говорится в выводах исследователей.
Как писал NV Техно, в декабре ByteDance обвинили в тайном использовании технологии OpenAI для создания собственных моделей. После этого OpenAI приостановил учетную запись ByteDance, поскольку пользователям запрещено создавать конкурентные модели искусственного интеллекта с помощью ChatGPT.