ШІ-агенти — яким буде новий етап розвитку генеративного штучного інтелекту / NV

Автор: Артем Прокопенко

Не встигла Anthropic представити модель Claude Opus 4.6 для агентних завдань, як того ж дня OpenAI відповіла оновленням GPT-5.3-Codex та запуском Frontier — платформи для керування цифровими помічниками. До чого такий поспіх?

Попередня хвиля штучного інтелекту успішно привчила нас до листування з розумними чатами. Але зараз пріоритети змінилися: тепер можна делегувати віртуальним асистентам конкретну роботу. В індустрії цей етап називають переходом до ШІ-агентів. Такі системи здатні не лише писати текст чи код, а й планувати завдання, запускати софт і працювати до фінального результату.

Технічно ШІ-агент — це модель, запущена в постійному циклі. Користувач ставить завдання: перенести кодову базу на іншу мову, знайти помилку в системі абощо. Програма розбиває цю ціль на окремі кроки, виконує їх за допомогою доступних інструментів і коригує свій план залежно від проміжних результатів.

Передплатіть NV Преміум та читайте без обмежень

Нам необхідна ваша підтримка, щоб займатися якісною журналістикою

Передплатити Я вже передплатник

Перший місяць 1 ₴. Відмовитися від передплати можна у будь-який момент

У роботі ШІ-агент нагадує Джарвіса з Залізної людини: той самостійно проводив діагностику систем і за потреби звертався до Тоні Старка.

Розробники вже випускають продукти під цей формат. В OpenAI описують модель GPT-5.3-Codex як інструмент для тривалих досліджень і складних операцій. Користувач може втручатися в її роботу та давати підказки прямо в процесі, не збиваючи загальний контекст завдання. Водночас компанія Anthropic прямо називає Claude Opus 4.6 своєю найпотужнішою моделлю саме для програмування та створення агентів.

Що ж саме пропонують два техногіганти в галузі генеративного ШІ?

Модель від Anthropic

Новий флагман розробили спеціально для автономної роботи. За словами Anthropic, Claude Opus 4.6 краще пише код, ретельніше планує кроки та стабільніше витримує тривалі навантаження. Головна технічна зміна — контекстне вікно на мільйон токенів у бета-версії. Це означає, що модель здатна проковтнути цілі архіви коду, гігантські ланцюжки електронних листів або сотні сторінок інструкцій, не втрачаючи нитку розмови.

«Поширеною скаргою щодо моделей ШІ є „контекстне гниття“, коли продуктивність погіршується, щойно розмови перевищують певну кількість токенів. Opus 4.6 працює значно краще, ніж його попередники», — ідеться в релізі Anthropic.

На спеціальному тесті MRCR v2 модель знаходила потрібні факти у величезному масиві даних у 76% випадків. Для порівняння, попередня версія Sonnet 4.5 показувала лише 18,5%.

Для розробників Opus 4.6 став інструментом, що вміє адаптивно мислити: модель сама вирішує, наскільки глибоко занурюватися в аналіз залежно від складності завдання. Команди можуть вручну налаштовувати рівень зусиль, обираючи між швидкістю та якістю.

Щоб агент не втрачав суть завдання під час багатоденних проєктів, додали Compaction API — він автоматично стискає старі частини діалогу, коли пам’ять переповнюється. При цьому за один раз модель може видати текст обсягом до 128 тисяч токенів, чого достатньо для великих звітів чи об'ємних програмних оновлень.

Згідно з релізом, чимало великих компаній вже випробували Opus 4.6 як повноцінного напарника. В Rakuten, що володіє Viber, агент на базі Opus 4.6 за один день самостійно закрив понад десяток технічних завдань і ще стільки ж розіслав відповідним фахівцям. Програма керувала роботою підрозділу з 50 людей у шести сховищах коду. Продуктові та організаційні рішення ШІ ухвалював сам, звертаючись до людей лише у складних випадках.

Директор із продукту GitHub Маріо Родрігес підтверджує, що Claude тепер справляється з довготривалим написанням коду, а не просто генерує короткі фрагменти. У Thomson Reuters зафіксували стрибок у якості обробки юридичних та фінансових даних. А державний фонд Норвегії NBIM перевірив модель на 40 розслідуваннях із кібербезпеки. У 38 випадках Opus 4.6 спрацював найкраще, самостійно керуючи дев’ятьма під-агентами.

Чим відповіла OpenAI

Як пише TechCrunch, компанія випустила нову версію власної моделі всього за кілька хвилин після оголошення Anthropic. OpenAI називає GPT-5.3-Codex найпотужнішою моделлю для програмування на сьогодні. Вона поєднує технічні навички версії 5.2-Codex із логікою та знаннями GPT-5.2, працюючи при цьому на 25% швидше.

Читайте також:

Як Gemini наздоганяє ChatGPT і в чому секрет успіху ШІ Google

Згідно з релізом OpenAI, тепер Codex не обмежений лише написанням коду. Він закриває весь цикл розробки софту, від написання техзавдань і дослідження користувачів до моніторингу помилок. Паралельно цей ШІ вміє створювати фінансові звіти, розрахунки окупності та навчальні документи. Ба навіть здатний з нуля написати вебгру, а потім самостійно вдосконалювати її після коротких уточнень.

При створенні сайтів модель сама ухвалює логічні рішення: наприклад, робить зручнішими блоки з цінами або додає відгуки, не чекаючи детальних інструкцій.

Щодо Frontier, то нова платформа від OpenAI виконує роль відділу кадрів та операційного менеджменту. Система допомагає компаніям створювати та керувати ШІ-агентами, які проходять ті ж етапи, що й звичайні співробітники: адаптацію, вивчення внутрішніх систем, отримання фідбеку та роботу в межах чітких доступів.

Платформу вже тестують такі гіганти, як HP, Oracle, Uber та Thermo Fisher, а серед перших користувачів у релізі значаться банки BBVA, компанії Cisco та T-Mobile. Видання TechCrunch називає Frontier базою для створення ШІ-персоналу, а The Verge порівнює її з HR-софтом, який централізує пам’ять і правила доступу до даних.

Для чого потрібен Frontier? Нині бізнес використовує розрізнених ботів, кожен з яких існує у власному ізольованому середовищі. Frontier об'єднує їх, підключаючи до баз даних, CRM-систем та внутрішніх додатків.

Для повноцінної роботи агенти отримують власне середовище, де вони планують кроки та використовують софт. Frontier відстежує їхню ефективність, щоб люди бачили прогрес і якість виконання завдань. Кожен цифровий співробітник має власну ідентичність і права доступу, що дозволяє використовувати їх у суворо регульованих сферах. При цьому платформа підтримує відкриті стандарти, тому до неї можна підключати агентів від інших розробників, не обмежуючись лише моделями OpenAI.

Якщо надалі ШІ-агенти стануть частиною офісного життя, то платформа, яка визначає їхні права доступу та правила роботи, отримає вплив рівня операційної системи. Frontier уже претендує на статус центрального хабу, куди можна буде підключати агентів навіть від інших розробників.

Anthropic та OpenAI не єдині прагнуть очолити нішу. Microsoft додає агентів Copilot прямо в програми Microsoft 365, де через платформу Copilot Studio бізнес може налаштовувати їх під власні потреби. А Google просуває платформу Gemini Enterprise та відкритий стандарт Agent2Agent (A2A). Цей протокол потрібен для того, щоб агенти від різних розробників могли розуміти один одного та працювати спільно в одній мережі.

Звідси й поспішні анонси: хто з техногігантів виграє гонку за ШІ-агентів, той отримає контроль над всією цифровою роботою майбутнього.

Читайте також:

Що таке ШІ-агенти й чому за них так змагаються творці Claude і ChatGPT

Передплатіть NV Преміум та читайте без обмежень

Модель від Anthropic

Чим відповіла OpenAI