ИИ-агенты — каким будет новый этап развития генеративного искусственного интеллекта / NV

Автор: Артем Прокопенко

Не успела Anthropic представить модель Claude Opus 4.6 для агентных задач, как в тот же день OpenAI ответила обновлением GPT-5.3-Codex и запуском Frontier — платформы для управления цифровыми помощниками. К чему такая спешка?

Предыдущая волна искусственного интеллекта успешно приучила нас к переписке с умными чатами. Но сейчас приоритеты изменились: теперь можно делегировать виртуальным ассистентам конкретную работу. В индустрии этот этап называют переходом к ИИ-агентам. Такие системы способны не только писать текст или код, но и планировать задачи, запускать софт и работать до финального результата.

Технически ИИ-агент — это модель, запущенная в постоянном цикле. Пользователь ставит задачу: перенести кодовую базу на другой язык, найти ошибку в системе и так далее. Программа разбивает эту цель на отдельные шаги, выполняет их с помощью доступных инструментов и корректирует свой план в зависимости от промежуточных результатов.

Подпишитесь на NV Премиум и читайте без ограничений

Нам необходима ваша поддержка, чтобы заниматься качественной журналистикой

Подписаться Я уже подписчик

Первый месяц 1 ₴. Отписаться можно в любой момент

В работе ИИ-агент напоминает Джарвиса из Железного человека: тот самостоятельно проводил диагностику систем и при необходимости обращался к Тони Старку.

Разработчики уже выпускают продукты под этот формат. В OpenAI описывают модель GPT-5.3-Codex как инструмент для длительных исследований и сложных операций. Пользователь может вмешиваться в ее работу и давать подсказки прямо в процессе, не сбивая общий контекст задачи. В то же время компания Anthropic прямо называет Claude Opus 4.6 своей самой мощной моделью именно для программирования и создания агентов.

Что же именно предлагают два техногиганта в области генеративного ИИ?

Модель от Anthropic

Новый флагман разработали специально для автономной работы. По словам Anthropic, Claude Opus 4.6 лучше пишет код, тщательнее планирует шаги и стабильнее выдерживает длительные нагрузки. Главное техническое изменение — контекстное окно на миллион токенов в бета-версии. Это означает, что модель способна проглотить целые архивы кода, гигантские цепочки электронных писем или сотни страниц инструкций, не теряя нить разговора.

«Распространенной жалобой на модели ИИ является „контекстное гниение“, когда производительность ухудшается, как только разговоры превышают определенное количество токенов. Opus 4.6 работает значительно лучше, чем его предшественники», — говорится в релизе Anthropic.

На специальном тесте MRCR v2 модель находила нужные факты в огромном массиве данных в 76% случаев. Для сравнения, предыдущая версия Sonnet 4.5 показывала лишь 18,5%.

Для разработчиков Opus 4.6 стал инструментом, умеющим адаптивно мыслить: модель сама решает, насколько глубоко погружаться в анализ в зависимости от сложности задачи. Команды могут вручную настраивать уровень усилий, выбирая между скоростью и качеством.

Чтобы агент не терял суть задачи во время многодневных проектов, добавили Compaction API — он автоматически сжимает старые части диалога, когда память переполняется. При этом за один раз модель может выдать текст объемом до 128 тысяч токенов, чего достаточно для больших отчетов или объемных программных обновлений.

Согласно релизу, немало крупных компаний уже опробовали Opus 4.6 в качестве полноценного напарника. В Rakuten, владеющей Viber, агент на базе Opus 4.6 за один день самостоятельно закрыл более десятка технических задач и еще столько же разослал соответствующим специалистам. Программа управляла работой подразделения из 50 человек в шести хранилищах кода. Продуктовые и организационные решения ИИ принимал сам, обращаясь к людям только в сложных случаях.

Директор по продукту GitHub Марио Родригес подтверждает, что Claude теперь справляется с длительным написанием кода, а не просто генерирует короткие фрагменты. В Thomson Reuters зафиксировали скачок в качестве обработки юридических и финансовых данных. А государственный фонд Норвегии NBIM проверил модель на 40 расследованиях по кибербезопасности. В 38 случаях Opus 4.6 сработал лучше всего, самостоятельно управляя девятью под-агентами.

Чем ответила OpenAI

Как пишет TechCrunch, компания выпустила новую версию собственной модели всего через несколько минут после объявления Anthropic. OpenAI называет GPT-5.3-Codex самой мощной моделью для программирования на сегодня. Она сочетает технические навыки версии 5.2-Codex с логикой и знаниями GPT-5.2, работая при этом на 25% быстрее.

Согласно релизу OpenAI, теперь Codex не ограничен только написанием кода. Он закрывает весь цикл разработки софта, от написания техзаданий и исследования пользователей до мониторинга ошибок. Параллельно этот ИИ умеет создавать финансовые отчеты, расчеты окупаемости и учебные документы. И даже способен с нуля написать веб-игру, а затем самостоятельно совершенствовать ее после коротких уточнений.

При создании сайтов модель сама принимает логичные решения: например, делает более удобными блоки с ценами или добавляет отзывы, не дожидаясь подробных инструкций.

Что касается Frontier, то новая платформа от OpenAI выполняет роль отдела кадров и операционного менеджмента. Система помогает компаниям создавать и управлять ИИ-агентами, которые проходят те же этапы, что и обычные сотрудники: адаптацию, изучение внутренних систем, получение фидбека и работу в рамках четких доступов.

Платформу уже тестируют такие гиганты, как HP, Oracle, Uber и Thermo Fisher, а среди первых пользователей в релизе значатся банки BBVA, компании Cisco и T-Mobile. Издание TechCrunch называет Frontier базой для создания ИИ-персонала, а The Verge сравнивает ее с HR-софтом, который централизует память и правила доступа к данным.

Для чего нужен Frontier? Сейчас бизнес использует разрозненных ботов, каждый из которых существует в собственной изолированной среде. Frontier объединяет их, подключая к базам данных, CRM-системам и внутренним приложениям.

Для полноценной работы агенты получают собственную среду, где они планируют шаги и используют софт. Frontier отслеживает их эффективность, чтобы люди видели прогресс и качество выполнения задач. Каждый цифровой сотрудник имеет собственную идентичность и права доступа, что позволяет использовать их в строго регулируемых сферах. При этом платформа поддерживает открытые стандарты, поэтому к ней можно подключать агентов от других разработчиков, не ограничиваясь только моделями OpenAI.

Если в дальнейшем ИИ-агенты станут частью офисной жизни, то платформа, определяющая их права доступа и правила работы, получит влияние уровня операционной системы. Frontier уже претендует на статус центрального хаба, куда можно будет подключать агентов даже от других разработчиков.

Anthropic и OpenAI не единственные стремятся возглавить нишу. Microsoft добавляет агентов Copilot прямо в программы Microsoft 365, где через платформу Copilot Studio бизнес может настраивать их под собственные нужды. А Google продвигает платформу Gemini Enterprise и открытый стандарт Agent2Agent (A2A). Этот протокол нужен для того, чтобы агенты от разных разработчиков могли понимать друг друга и работать совместно в одной сети.

Отсюда и поспешные анонсы: кто из техногигантов выиграет гонку за ИИ-агентов, тот получит контроль над всей цифровой работой будущего.

Что такое ИИ-агенты и почему за них так соревнуются создатели Claude и ChatGPT

Подпишитесь на NV Премиум и читайте без ограничений

Модель от Anthropic

Чем ответила OpenAI