Масштабное обновление. Anthropic представила Claude Sonnet 4.5

1 октября, 07:00
Сделать резюме статьи:
ChatGPT ChatGPT
Логотип Anthropic (Фото: mobilinchen/Depositphotos)

Логотип Anthropic (Фото: mobilinchen/Depositphotos)

Опробовать новую ИИ-модель уже можно в чатботе Claude. Sonnet 4.5 также доступна для разработчиков через API: цена — $3 за входящие и $15 за исходящие миллионы токенов.

Как отмечает Anthropic в официальном релизе, ее новая модель является самой современной в бенчмарке SWE-bench Verified, измеряющем реальные навыки программирования. Также Sonnet 4.5 лидирует в тесте OSWorld, который проверяет способность ИИ выполнять задачи на компьютере, показывая результат 61,4% (предыдущая версия имела 42,2%).

Реклама

Anthropic
Фото: Anthropic

Вместе с новой моделью Anthropic выпустила ряд обновлений для своих продуктов. Так, в Claude Code появились «контрольные точки» (checkpoints), позволяющие сохранять прогресс и мгновенно возвращаться к предыдущему состоянию, был обновлен интерфейс терминала и выпущено нативное расширение для VS Code.

В Claude API добавили функцию редактирования контекста и инструмент памяти, что позволяет ИИ-агентам работать дольше и справляться с более сложными задачами.

В приложения Claude интегрировали выполнение кода и создание файлов (таблиц, слайдов, документов), а расширение Claude для Chrome стало доступным для пользователей тарифа Max, которые ранее записывались в список ожидания.

В дополнение компания открыла доступ к Claude Agent SDK — набору инструментов, который Anthropic использует для разработки Claude Code. Теперь разработчики могут использовать эту инфраструктуру для создания собственных ИИ-агентов.

Anthropic также отмечает, что Sonnet 4.5 — их «наиболее согласованная» модель на сегодня. Благодаря расширенному обучению по безопасности удалось существенно снизить проблемные поведенческие паттерны, такие как подхалимство, обман, стремление к власти и склонность поощрять бредовое мышление.

Для подписчиков плана Max на пять дней открыли исследовательский режим «Imagine with Claude». В этом эксперименте модель генерирует программное обеспечение на лету в режиме реального времени, реагируя на запросы пользователя.

Показать ещё новости