NV Премиум

Создадим Бога. ТОП-7 проектов, которые лидируют в области ИИ сегодня

Инновации

7 декабря 2024, 08:20

Семь самых влиятельных проектов, которые задавали тон в области искусственного интеллекта в 2024 году

Для большинства пользователей символом нового направления ИИ стал ChatGPT от компании OpenAI.

П ро революционный «чатик» сегодня слышали даже дети. И даже весьма далекие от индустрии высоких технологий люди знают, кто такой Сэм Альтман, которого некоторые уже поспешили назвать «новым Стивом Джобсом». И слышали историю его краткосрочного увольнения из OpenAI с последующим быстрым возвращением.

Однако, несмотря на то, что ChatGPT остается законодателем мод, развитие индустрии ИИ определяет не только компания Альтмана. Некоторые другие проекты в чем-то уже опережают ChatGPT, а некоторые и вовсе осваивают доселе неизведанные направления.

Давайте посмотрим на семь самых влиятельных проектов в сфере ИИ по состоянию на конец 2024 года. От них во многом зависит то, каким станет наш мир в обозримом будущем.

Подпишитесь на NV Премиум и читайте без ограничений

Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой

Первый месяц 1 ₴. Отписаться можно в любой момент

Компании, которые лидируют в области искусственного интеллекта / Фото: NV via Midjourney

ChatGPT от OpenAI

Пока никто не сбросил ChatGPT с пьедестала. Это все еще самый влиятельный ИИ-проект нашего времени. Для миллионов людей по всему миру, именно ChatGPT олицетворяет саму идею общения с ИИ.

«Чатик» от OpenAI остается в авангарде технологий языковых моделей, особенно с переходом на GPT-4o и GPT-4o mini, предлагающие повышенную производительность как для бизнеса, так и для обычных потребителей.

Модель GPT-4o имеет более сложную архитектуру, чем GPT-3.5, с которой компания Альтмана покорила мира в 2023 году. В GPT-4o интегрированы более совершенные слои трансформеров с более чем 1 триллионом параметров, что является огромным скачком по сравнению со 175 миллиардами параметров GPT-3.

OpenAI также уверяет, что провела тонкую настройку модели, чтобы привести ее поведение в соответствие с этическими нормами, повысив безопасность и снизив предвзятость ответов на 82%. Это не мешает многим в США уверять, что ChatGPT — откровенный «левак», продвигающий строго определенные политические взгляды.

Большой популярностью стал пользоваться и DALL-E — генератор изображений, запущенный OpenAI.

OpenAI не стоит на месте. Вместе с новой моделью была запущена ее «мини» версия, которая обходится дешевле и использует меньше ресурсов для обработки запросов. Она лучше подходит для несложных задач. С сентября пользователям доступно и «превью» новой модели o1. Она пока работает с ограниченной базой знаний и не имеет доступа к интернету в реальном времени, но ее способности понимать запросы пользователя многократно возросли.

Как и математические способности. Так, по данным OpenAI, GPT-4o способен решить лишь 13% задач Международной математической олимпиады. Ну а новая модель осилила 83% задач. Она же недавно сдала IQ тест на 122 балла. Этого уровня обычно хватает, чтобы получить PhD.

На очереди появление генератора видео Sora, которую Альтман с коллегами анонсировали в этом году. Эксперты уже считают, что Sora попросту убьет индустрию видеомейкерства. Подобно тому, как ChatGPT уже беспощадно расправился с копирайтерами.

В октябре 2024 года OpenAI привлекла очередные $6,6 млрд от инвесторов. Общая стоимость компании сейчас оценивается в $157 млрд. Ключевым партнером и инвестором компании Альтмана по-прежнему является Microsoft.

Claude AI от Anthropic

Компанию Anthropic основали бывшие сотрудники OpenAI, которые считали, что важнейшим акцентом при создании ИИ должна стать безопасность.

И хотя OpenAI с ее ChatGPT вышла на рынок раньше и привлекла огромные инвестиции, Anthropic не сильно отстает. Компания привлекла $4 млрд от Amazon и $2 млрд от Google только за последние полтора года.

Claude использует новую модель обучения, которая была доработана с учетом мнения экспертов по этике, благодаря чему Claude может помогать в процессах принятия решений, придерживаясь строгих этических стандартов.

Попросите Claude написать текст о том, как выигрывать в казино в баккара, и чатбот вежливо ответит, что не может помочь в области азартных игр.

В модели используются методы «объясняемого ИИ», которые позволяют пользователям увидеть, как модель пришла к своим выводам, что делает ее более прозрачной по сравнению с предыдущими моделями «черного ящика».

Очень популярен Claude среди разработчиков, поскольку обладает уникальным функционалом, который позволяет работать с исходным кодом в одном окне, и видеть результат в другом.

Gemini от Google

Компания Google начала заниматься искусственным интеллектом гораздо раньше большинства нынешних конкурентов. В какой-то момент казалось, что именно Google на пару с IBM — еще одним пионером в этой области — будут править бал в индустрии.

Но выход ChatGPT в конце 2022 года стал неожиданным «ударом под дых». И Google внезапно оказалась в положении догоняющего. Компания в спешном порядке вынуждена была догонять конкурента.

При этом выход Gemini, мягко говоря, не стал триумфом. Его возможности обработки информации и писательские «таланты» по-началу, не впечатляли. И возможность обработки изображений у Gemini появилась далеко не сразу.

Однако, ближе к концу 2024 года Gemini постепенно начал превращаться в мощный инструмент, с которым вполне можно решать серьезные задачи.

Gemini основан на архитектуре ансамблевой модели, объединяющей глубокие нейронные сети, которые могут обрабатывать текст, изображения и видео одновременно, что идеально подходит для приложений, требующих взаимодействия в реальном времени, таких как дополненная реальность (AR) и виртуальная реальность (VR).

Важной чертой Gemini является иерархический механизм внимания, который позволяет ему определять приоритетность наиболее важных данных при обработке в режиме реального времени, обеспечивая более точные ответы в динамических средах.

Gemini постепенно интегрирует Gemini в различные сервисы, которые давно пользуются люди. Например, в Google Lens, где Gemini улучшает распознавание объектов в реальном времени для работы с дополненной реальностью. И в Google Assistant, позволяя пользователям легко взаимодействовать с речью и текстом, и более эффективно интерпретировать сложные запросы.

Вершиной возможностей Google Gemini стала представленная в этом году модель Ultra, которая обладает беспрецедентной масштабируемостью для обработки огромного количества задач (это полезно, к примеру, в научных исследованиях).

Но Gemini пока еще сильно отстает в области генерирования изображений, функция доступна в урезанном виде. До таких популярных решений как DALL-E или Midjourney ей далеко.

Grok от xAI

К Илону Маску можно относиться по-разному, но ему сложно отказать в умении успевать приложить руку ко всем инновационным направлениям в современных технологиях.

Маск одновременно осваивает космос, копает тоннели, пересаживает человечество на электромобили, вживляет импланты в мозг и, вот, создает собственную большую языковую модель.

Grok получил название в качестве тонкой отсылки к культовому роману Роберта Хайнлайна Чужак в чужой стране. Выдуманный писателем глагол «грокнуть» означал понимать настолько полно, что наблюдатель как бы становится частью наблюдаемого.

В разработке ИИ с таким говорящим названием компания Маска зашла очень далеко.

Тесно интегрированный с соцсетью X (бывший Twitter) Grok стал одной из самых передовых и противоречивых платформ генеративного ИИ.

В различных бенчмарках, включая MMLU (Massive Multitask Language Understanding) и MathVista (математические рассуждения), Grok-2 показал результаты наравне с такими передовыми моделями, как GPT-4o и Claude 3.5 Sonnet, набрав 87,5%, что является ключевым показателем его способности к рассуждениям.

Эти достижения делают Grok грозным конкурентом в таких задачах, как анализ текстов и визуальное математическое мышление.

А еще Маск, известный своими радикальными взглядами на свободу слова и борьбу с цензурой, позаботился о том, чтобы Grok не знал никаких ограничений.

Одной из наиболее ярких особенностей Grok-2 является возможность неограниченной генерации изображений. Интегрированная с X, платформа позволяет пользователям генерировать изображения без обычных ограничений, характерных для других моделей, таких как MidJourney или DALL-E. Это сделало Grok популярным среди пользователей, особенно для создания политических образов и образов знаменитостей, вызывающих как ажиотаж, так и споры.

Отсутствие цензуры, фильтров, а также механизмов политкорректности при создании изображений вызвало критику детища Маска. В отличие от других моделей, ограничивающих определенный чувствительный контент, Grok позволяет создавать политически окрашенные и потенциально вредные изображения, что вызывает опасения по поводу распространения дезинформации и злоупотреблений на платформе.

«Неограниченный» характер Grok не ограничивается генерацией изображений. ИИ был замечен в выполнении противоречивых задач, когда ему предъявлялись неэтичные требования. В соцсетях активно обсуждаются случаи, когда Grok выполнял просьбы о создании фишинговых писем и пропагандистских лозунгов, на которые ChatGPT и Claude обычно отвечают пользователя отказами.

Впрочем, те, кто разделяют идеи Маска, считают, что отсутствие политической заангажированности как раз является сильной стороной Grok.

Stable Diffusion XL от Stability AI

Stable Diffusion XL (SDXL), проект компании Stability AI, — это самая продвинутая модель генерации текста в изображение, доступная в 2024 году.

В отличие от предыдущих версий, SDXL использует модель скрытой диффузии, которая позволяет генерировать более сложные и реалистичные изображения. Эта модель особенно эффективна при генерации фотореалистичных изображений из нечетких или неполных подсказок.

Не будет преувеличением сказать, что SDXL после своего появления изменила такие отрасли, как реклама, дизайн одежды и разработка игр. Теперь задачу получения нужных изображений можно решать не с помощью дорогостоящих фотосъемок по каждому поводу или многократного использования одних и тех же фотобанков, но попросту объясняя генеративному ИИ, что вы хотите увидеть.

Важнейшим техническим достижением SDXL являются слои перекрестного внимания, которые позволяют модели более точно согласовывать текстовые описания с генерацией изображений.

В модель также интегрирована адаптивная нормализация контрастности, обеспечивающая естественное освещение и текстурные вариации генерируемых изображений. Stability AI оптимизировала SDXL для развертывания в облаке, сделав ее доступной для малых предприятий и индивидуальных создателей через API.

Одним из наиболее значимых применений SDXL является индустрия развлечений, где он используется для создания раскадровок, концепт-артов и даже полноценных CGI-активов для фильмов и видеоигр. Сервисом массово пользуются профессиональные дизайнеры, которые не рассматривают Stable Diffusion XL как угрозу своей профессии, но видят в сервисе отличный инструмент, расширяющий творческие возможности и экономящий ресурсы.

Что касается инвестиций, то дела у Stability AI в последнее время пошли получше. Был период, когда компанию собирались выставлять на продажу, но затем все же последовали инвестиции. Осенью прошлого года инвесторы занесли в компанию $101 млн, а летом нынешнего года подтянулась новая волна инвесторов в лице бывшего директора Google Эрика Шмидта и бывшего топ-менеджера Facebook Шона Паркера, которые совместно вложили в Stability AI еще $80 млн.

Omniverse от Nvidia

На самом деле, Omniverse не является в чистом виде ИИ-проектом, но постепенно становится одним из заметных игроков в этом ландшафте.

Изначально Omniverse была платформой для взаимодействия в реальном времени в области 3D-графики. Платформа должна была стать «мостиком» в Метавселенную. В 2021 году после того, как Марк Цукерберг во всеуслышание объявил, что видит будущее интернета в виртуальной реальности и даже переименовал Facebook в Meta, многие компании поспешили объявить о своих проектах в этой области.

Большинство довольно быстро «сдулись», в том числе и сама Meta, которая спустя три года так и не предложила пользователями никакой альтернативу Facebook.

Но только не Nvidia. Крупнейший в мире производитель видеокарт стал главным бенефициаром гонки ИИ, поскольку именно на мощностях чипов Nvidia основаны многие крупнейшие дата-центры.

И своей проект Omniverse дальновидная Nvidia бросать не планирует. Больше того, в платформу были интегрированы мощные возможности ИИ. Теперь у пользователей есть широкие возможности совместного 3D-проектирования и моделирования на основе искусственного интеллекта.

Платформа Omniverse позволяет дизайнерам, инженерам и разработчикам сотрудничать над одним проектом в режиме реального времени, используя инструменты, управляемые искусственным интеллектом, для моделирования физики, материалов и условий освещения с беспрецедентной реалистичностью.

В основе платформы — аппаратное обеспечение Nvidia RTX и ускоренная искусственным интеллектом функция трассировка лучей, что обеспечит фотореалистичное изображение и возможность совместной работы в реальном времени.

Одной из самых революционных особенностей Omniverse является использование нейронного рендеринга, обученного искусственным интеллектом, который значительно снижает вычислительную нагрузку при создании сложных визуальных эффектов.

Обучая модели искусственного интеллекта на огромных массивах данных реальной физики и визуального окружения, Omniverse может создавать симуляции, которые в противном случае потребовали бы гораздо больше вычислительных ресурсов. Это быстро становится основой для революции в таких отраслях, как архитектура, автомобильный дизайн и развлечения, где реалистичное моделирование имеет решающее значение для создания прототипов и конечного производства.

Watsonx от IBM

Компания IBM была одним из пионеров в области ИИ. И хотя теперь ее затмили успехи генеративных моделей, таких как ChatGPT и Claude, компания все же остается в числе лидеров, избрав свой собственный путь.

Платформа Watsonx от IBM стала краеугольным камнем для предприятий, стремящихся создавать модели искусственного интеллекта, отвечающие их специфическим потребностям, с акцентом на гибкость, безопасность и эффективность.

Watsonx предлагает мощные инструменты для оптимизации моделей и управления конвейером данных, позволяя организациям обучать, настраивать и развертывать модели ИИ, специально разработанные для их использования.

Это особенно важно для регулируемых отраслей, таких как здравоохранение, финансы и юриспруденция, где конфиденциальность и соответствие нормативным требованиям имеют первостепенное значение.

Проще говоря, WhatsonX дает возможность компании получить свой собственный ИИ, заточенный под свои конкретные нужды и хранящий данные в собственной «песочнице». К тому же, Watsonx поддерживает функцию локального развертывания, что наряду с облачными вариантами делает ее лучшим решением для компаний, которым требуется высокая степень настройки и контроля

Watsonx также включает функции «объяснимого ИИ», что позволяет предприятиям отслеживать, как модели ИИ принимают решения, что важно для обеспечения прозрачности — если заказчик хочет знать, как ИИ пришел к тому или иному выводу или решению.

Другие новости

Все новости