Сегодня 03 июля 2026
18+
MWC 2018 2018 Computex IFA 2018
реклама
Теги → sonnet

Anthropic выпустила Claude Sonnet 5 — ИИ-модель «в среднем весе», которая приближается по уровню к Opus 4.8 и заточена под работу с агентами

Одной из важнейших возможностей для современных моделей искусственного интеллекта является их способность управлять агентскими приложениями, и при разработке новой Claude Sonnet 5 компания Anthropic уделила этому первостепенное внимание.

 Источник изображений: anthropic.com

Источник изображений: anthropic.com

«Она умеет планировать, пользоваться такими средствами как браузеры и терминал, а также работать автономно на уровне, который ещё несколько месяцев назад предполагали более крупные и дорогие модели», — рассказали в компании. Концепция Sonnet 5 основана на том, что управление ИИ-агентами является новым базовым требованием, которое предъявляется к моделям в любом сегменте. Решающим фактором является не то, какая из них лучше всего справляется с этой задачей, а то, насколько дёшево и надёжно она способна делать это без участия человека.

Относящаяся к средней категории Claude Sonnet 5 обещает качество работы, близкое к Opus 4.8, но значительно дешевле; новая модель с сегодняшнего дня устанавливается по умолчанию для всех пользователей платформы Claude — тех, кто на бесплатном тарифе, и тех, кто оформил подписку. При доступе по API до 31 августа цена подключения к Sonnet 5 составляет $2 за 1 млн входных и $10 за 1 млн выходных токенов; далее цены вырастут до $3 и $15 соответственно. Новая модель демонстрирует значительные улучшения по сравнению с вышедшей в феврале Sonnet 4.6. В одном из тестов на написание кода Sonnet 5 набрала 63,2 % — Opus 4.8 показала 69,2 %, а Sonnet 4.6 — 58,1 %. В тесте на обработку данных Sonnet 5 даже немного обошла Opus 4.8, известную своей способностью решать самые сложные задачи, принимать сложные решения и проводить глубокие исследования.

«Opus 4.8 всё ещё остаётся предпочтительной моделью для более высокой точности в таких задачах, но Sonnet 5 даёт разработчикам менее дорогие варианты с более высоким качеством, чем доступные ранее. С Sonnet 5 и Opus 4.8 пользователи могут выбирать уровень сложности, чтобы найти идеальный баланс между стоимостью и производительностью», — пояснил разработчик. У Sonnet 5 также снизился уровень «нежелательного поведения», то есть она менее подвержена злоупотреблениям и более безопасна в агентских контекстах, отклоняя вредоносные запросы и обходя попытки взлома при атаках с внедрением запросов. По сравнению с Sonnet 4.6 она реже демонстрирует галлюцинации и подобострастие.

Конечно, ИИ-модель среднего класса Sonnet 5 всё-таки уступает Opus 4.8 и Claude Mythos Preview. «Оценки также показывают, что она обладает гораздо меньшей способностью выполнять опасные задачи в области кибербезопасности, чем наши текущие модели Opus», — предупредили в Anthropic.

Меньше галлюцинаций и миллионный контекст: Anthropic представила Sonnet 4.6 и она уже доступна бесплатно в Claude

Anthropic обновила свою большую языковую модель Sonnet среднего уровня. В анонсе Sonnet 4.6 разработчики Anthropic подчеркнули улучшения в генерации программного кода, рассуждениях с длинным контекстом, выполнении инструкций и работе с компьютером. Новинка станет стандартной моделью для чат-бота Claude как для бесплатных пользователей, так и в платной подписке Pro.

 Источник изображений: Anthropic

Источник изображений: Anthropic

Sonnet 4.6 предлагает контекстное окно размером 1 миллион токенов, что вдвое больше, чем было у предыдущей версии Sonnet. Anthropic описала новое контекстное окно как «достаточное для хранения целых кодовых баз, длинных контрактов или десятков исследовательских работ в одном запросе». В компании подчёркивают, что модель не только удерживает большой объём информации, но и эффективно работает с ним при построении логических цепочек.

По данным Anthropic, разработчики, тестировавшие Sonnet 4.6 в раннем доступе, в 70 % случаев предпочли её версии 4.5. Пользователи отмечали более аккуратную работу с контекстом кода, меньшее количество дублирования логики и более последовательное выполнение инструкций. Разработчики также сообщают о снижении числа «галлюцинаций» и ложных заявлений об успешном выполнении задачи.

Отдельное внимание уделено работе с компьютером без специализированных API. Модель взаимодействует с программами так же, как человек — через виртуальные клики мышью и ввод с клавиатуры. В бенчмарке OSWorld, который имитирует задачи в Chrome, LibreOffice и VS Code, свежая Sonnet 4.6 демонстрирует заметный прогресс по сравнению с предыдущими версиями. По словам представителей компании, в ряде сценариев — например, при работе со сложными таблицами или многошаговыми веб-формами — модель приближается к уровню человека. При этом Anthropic признаёт, что ИИ по-прежнему уступает наиболее опытным пользователям и что реальная работа с ПО сложнее лабораторных тестов.

Anthropic отмечает, что Sonnet 4.6 предоставляет значительно улучшенные навыки программирования по сравнению с предыдущей версией. В соответствующих бенчмарках новинка оказалась лучше Gemini 3 Pro, а также почти сравнялась с Opus 4.5. По словам бета-тестеров модели, особенно заметны улучшения в задачах фронтенд-разработки и финансового анализа. Также отмечается, что Sonnet 4.6 в ряде задач смогла обеспечить уровень производительности, для достижения которого прежде требовалось использовать модели класса Opus, в том числе в реальных офисных задачах.

Anthropic также раскрыла показатели на тесте ARC-AGI-2 — одном из наиболее сложных бенчмарков, оценивающих способность модели к абстрактному рассуждению и обобщению (навыков, характерных для человеческого интеллекта). Sonnet 4.6 достигла 60,4 % при высоком уровне «усилия мышления». Этот результат ставит Sonnet 4.6 выше большинства сопоставимых моделей, хотя он отстаёт от таких решений, как Opus 4.6, Gemini 3 Deep Think и одной из усовершенствованных версий GPT 5.2.

В конце отметим, что релиз Sonnet 4.6 состоялся всего через две недели после запуска Opus 4.6, а значит, обновлённая модель Haiku, вероятно, появится в ближайшие недели. Модель уже доступна в боте Claude и приложении, а также через API для сторонних сервисов. Стоимость в последнем случае остаётся на уровне Sonnet 4.5 — от $3 за миллион входных токенов и $15 за миллион выходных.


window-new
Soft
Hard
Тренды 🔥
Microsoft разрабатывала ИИ ОС, отличную от Windows — с глубокой интеграцией Copilot и агентов 2 ч.
«Самое янское дополнение в истории»: геймплейный трейлер сюжетного аддона The Alters: Last Variable порадовал фанатов 3 ч.
Epic Games Store устроил раздачу классической игры I Have No Mouth, and I Must Scream о последних людях на Земле, которых пытает безумный суперкомпьютер 5 ч.
Авторитетный инсайдер опроверг закрытие Obsidian Entertainment и работу студии над новой Fallout 6 ч.
Правительство США снова взломали: хакеры проникли в федеральную платформу для обмена разведданными 6 ч.
«Не можешь — научим, не хочешь — заставим»: Microsoft мобилизует 6000 сотрудников для помощи клиентам во внедрении ИИ 6 ч.
Браузер Opera получил продвинутую защиту от ввода вредоносных команд через буфер обмена 6 ч.
ИИ оказался слишком дорогим: компании урезают сотрудникам доступ к ChatGPT и Claude 6 ч.
Студия создателя Deus Ex и System Shock перестанет делать игры — после провала Thick as Thieves в OtherSide осталось меньше десяти человек 7 ч.
Google не смогла отбиться от рекордного штрафа в €4,1 млрд в Европе 7 ч.
Новая статья: Обзор Midea VCR V15 EVO ULTRA: я просто хорошо убираю любое помещение 7 мин.
Новый кроссовер R2 вдохнул жизнь в Rivian: продажи превзошли ожидания, прогноз повышен 2 ч.
Philips анонсировала 27-дюймовые игровые мониторы Evnia M4 с тремя режимами работы: 1440p@275 Гц, 1080p@360 Гц и 720p@540 Гц 3 ч.
Anthropic ведёт переговоры с Samsung о создании собственного ИИ-чипа 5 ч.
У Tesla внезапно подскочили продажи электромобилей во втором квартале 6 ч.
Amazon запустила достаточно спутников для запуска конкурента Starlink 7 ч.
ИИ подрывает экологические цели: выбросы углекислого газа у Amazon подскочили на 16 % в 2025 году 7 ч.
«Яндекс» разрабатывает новые ИИ-устройства — «Пин», «Хронум» и другие загадочные продукты 7 ч.
Инвестиции с кешбэком: NVIDIA вкладывается в создание ИИ-инфраструктуры партнёров в обмен на доход от её эксплуатации 8 ч.
Weave представила бытового робота Isaac 1 — он будет наводить порядок, пока хозяев нету дома 8 ч.