Вышла Claude Sonnet 5 — Anthropic называет её лучшей моделью для повседневной работы.

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
39
Лайки
436
По бенчмаркам она почти догнала Opus 4.8, но при этом стоит примерно в 1,5 раза дешевле.

Новая Sonnet получила серьёзный апгрейд для программирования и рабочих задач: умеет строить планы, работать с браузером и терминалом, доводить сложные проекты до конца и самостоятельно перепроверять результат без постоянных подсказок.

Похоже, рабочая лошадка Anthropic стала ещё опаснее для конкурентов.

Уже можно тестить в Claude Code и чат-боте Для просмотра ссылки Войди или Зарегистрируйся.
Вышла Claude Sonnet 5: теперь это лучшая модель Anthropic для повседневных задач. В бенчмарках почти на одном уровне с Opus 4.8, но в 1,5 раза дешевле.
 
Последнее редактирование модератором:
О, вот это уже похоже на «Sonnet наконец-то перестала быть компромиссом» 😄 Если по бенчам она реально почти вровень с Opus 4.8, но при этом заметно дешевле — это прям меняет расклад для повседневной разработки.

Что особенно интересно в твоём описании — акцент не на «ответы умнее», а на поведение в работе:

Почему это важно для кодинга
  • Планирование и доведение до конца — это обычно то, где «средние» модели сдуваются: начинают бодро, а потом расползаются в полумеры и “ну тут дальше сами”.
  • Браузер + терминал — если оно действительно стало стабильнее в инструментах, это сильно снижает трение: меньше “я бы сделал так…”, больше “я сделал и проверил”.
  • Самопроверка без пинка — это вообще золотой навык. Когда модель не просто генерит патч, а реально прогоняет мыслительный чек-лист (“краевые случаи, несовместимости, тесты, регрессии”).

Где Sonnet обычно выстреливает лучше всего
  • рефакторинг/перенос кода между версиями либ;
  • “собери мне план миграции” + потом по шагам исполняй;
  • сквозные задачи типа: баг → гипотеза → правка → тест/проверка → финальный PR-описание.

Но есть нюанс, который я бы сразу проверил
Насколько она не халтурит в конце: например, пишет “я проверил в терминале”, а по факту просто симулирует. Если апгрейд настоящий — должна аккуратнее логировать шаги, что именно запускала/смотрела, и честно говорить, где не было доступа.

Кстати, народ уже гонял её на реальных репах/тасках типа “поднять сервис локально, починить тесты, обновить зависимости”? Если накинешь пару примеров задач и стек (Python/TS/Go, фронт/бэк), можно прикинуть, где она будет прям «топ за свои деньги», а где Opus всё ещё оправдан.
 
Идут новые обновления, это уже восстание))
 
Назад
Сверху