С Opus 4.8 Claude учится говорить «я не знаю»

Правда, если я лгу...
Не прошло и 40 дней после запуска Opus 4.7, как Anthropic вновь представляет обновление своей передовой ИИ-модели (за исключением Mythos). Opus 4.8 внедряет новую функцию для улучшения обработки очень сложных запросов, уменьшения ошибок, а также предлагает новый «быстрый» режим для сокращения потребления токенов.
Поток обновлений моделей от Anthropic продолжает расти. Opus 4.7, вышедший 16 апреля, уже уступил место преемнику – Opus 4.8, анонсированному лабораторией ИИ. Компания заявляет, что новая модель приносит «скромные, но ощутимые улучшения», начиная с повышения осторожности, когда ИИ сталкивается с неизвестностью.
Больше честности, меньше токенов
По словам тестировщиков, на которых ссылается Anthropic, Opus 4.8 стал более честным: он чаще сообщает о своих неопределенностях, избегает неподтвержденных утверждений и реже пропускает ошибки, не упоминая о них. «Общая проблема ИИ-моделей заключается в том, что они иногда делают поспешные выводы, уверенно заявляя о прогрессе в своей работе, хотя доказательства скудны», — объясняет стартап. Anthropic утверждает, что новая модель «примерно в четыре раза реже» оставляет неупомянутые дефекты в коде по сравнению с предшественником.
Еще одно новшество — экспериментальная функция под названием «динамические рабочие процессы» (dynamic workflows) для Claude Code. Модель способна параллельно управлять очень крупными проектами программного обеспечения, разбивая их на мелкие части, запуская сотни субагентов одновременно и автоматически проверяя результаты перед ответом. Anthropic приводит в пример массовую миграцию кодовых баз, содержащих «сотни тысяч строк».
Что касается бенчмарков, Opus 4.8 демонстрирует постепенные улучшения в большинстве тестов (+4,9 балла по SWE-Bench Pro, +8,5 балла по Terminal-Bench…). Anthropic не совершает здесь впечатляющего прорыва, но улучшает существующее небольшими шагами и сохраняет свои позиции в агентских задачах. Это соответствует стратегии стартапа, который в первую очередь нацелен на разработчиков и компании: по SWE-Bench Pro (агенты программирования) Opus 4.8 значительно опережает GPT-5.5 и Gemini 3.1 Pro. Однако модель OpenAI остается лидером на Terminal-Bench, который измеряет задачи, очень близкие к реальной среде разработчика.
Оптимизация токенов
Одно из наиболее важных изменений в этой новой версии — это настройка уровня усилий в claude.ai и Cowork. Пользователь может выбрать уровень ресурсов, которые будут затрачены на ответ: «низкий» уровень усилий вернет менее точные ответы, но процесс обдумывания будет быстрее и, главное, менее затратным, в отличие от более высокого уровня усилий. По умолчанию Opus 4.8 настроен на высокий уровень усилий, который, по словам Anthropic, предлагает лучший баланс между «качеством и пользовательским опытом».
При работе с кодом этот уровень усилий потребляет тот же объем токенов, что и Opus 4.7 по умолчанию, «но с лучшей производительностью». Вопрос о токенах стал очень чувствительным, поскольку Opus 4.7 был очень требователен в этом отношении. Эта критика не ускользнула от внимания Anthropic: лимиты использования в Claude Code были повышены для более высоких уровней усилий.
Кроме того, Anthropic значительно снизила стоимость «быстрого» режима для Opus 4.8, который теперь в три раза дешевле своего эквивалента в Opus 4.7. Этот режим, работающий в 2,5 раза быстрее, теперь стоит 10 долларов за миллион входных токенов и 50 долларов за миллион выходных токенов. Это в три раза дешевле, чем для предыдущих моделей (30/150 долларов). Тарифы на стандартное использование Opus 4.8 не меняются: 5 долларов за миллион входных токенов, 25 долларов за миллион выходных токенов.
Наконец, в соответствии с хорошо отработанной маркетинговой стратегией, Anthropic обещает запуск «в ближайшие недели» потребительских моделей, основанных на Mythos — знаменитой LLM, которая распространяется поштучно в рамках проекта Glasswing.
Компания объясняет, что разработка защитных механизмов для Mythos идет хорошо. Эти механизмы безопасности необходимы для предотвращения использования мощных возможностей Mythos хакерами для эксплуатации уязвимостей. Эти новшества и ажиотаж вокруг Mythos весьма своевременны, поскольку, по слухам, Anthropic готовится выйти на биржу к концу года, несмотря на то, что компания только что завершила новый раунд рекордного сбора средств.
Похожие новости в рубрике «Новости IT-индустрии»
Все материалы →
Deezer: песни, сгенерированные ИИ, «проблема для всей музыкальной индустрии»
Серверы музыкальных стриминговых сервисов буквально осаждены треками, созданными искусственным интеллектом. Это не преувеличение: Deezer сообщил, что 44% песен, поступающих от его поставщиков, генерируются ИИ. Эти ошеломляющие объемы вся индустрия должна научиться коллективно обрабатывать, счи

Brave атакована французскими издателями прессы
Калифорнийская компания Brave, разработчик одноименного браузера, столкнулась с судебным иском в Парижском суде. Истцами выступают Альянс общей информационной прессы (Apig) и 53 французские медиагруппы, включая L'Équipe, Libération, Les Échos, Bayard и Ouest-France. Согласно данным журналис

Utiq: Рекламный идентификатор от операторов связи, который вы полюбите ненавидеть
Utiq, разработанный как альтернативный рекламный идентификатор вместо сторонних cookie-файлов, сегодня активно появляется на баннерах согласия многих сайтов и медиа. Несмотря на то что Utiq представляется «простым» идентификатором, его принцип работы кардинально отличается от cookie, поскольку

Аптеки и медицинские данные: CNIL налагает штраф в 5 миллионов евро на IQVIA
Пять лет назад расследование выявило практику IQVIA по сбору данных пациентов из более чем 14 000 аптек без их надлежащего информирования. Впоследствии французский орган по защите данных (CNIL) оштрафовал IQVIA на 5 миллионов евро за эти нарушения, а также за недостатки в обеспечении прав субъ

Алгоритмическое видеонаблюдение: закон Ripost снова продлевает срок действия до 2030 года
Закон Ripost, предложенный Лораном Нюньесом и принятый Сенатом во вторник, 26 мая, предусматривает продление эксперимента по использованию алгоритмического видеонаблюдения (АВН) до конца 2030 года не только для Олимпийских игр, но и для всех зданий и мест, открытых для публики, включая обществ

Huawei делает ставку на закон Тау (τ) для разработки чипов: вопрос выживания
В поисках инноваций и конкурентоспособности Huawei внедряет новый подход. Чтобы повысить производительность и плотность своих чипов, Huawei меняет стратегию. Вместо того чтобы фокусироваться на уменьшении размера транзисторов (известных как нм), производитель использует верт