⚡️ Gemini 3 — на покой! Только что вышла Claude Opus 4.5, и она просто разносит конкурентов в большинстве бенчмарков.

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
20
Лайки
433
Сразу к главному: это новый абсолютный босс кодинга. Claude 4.5 прошла ключевой кодерский тест SWE-Bench на 80%, у Gemini 3 Pro — только 76%.

Простыми словами: Claude дали реальный баг с GitHub, она разобралась, пофиксила и залила рабочий фикс — это полный и неоспоримый цикл кодерства.

Бегом — Для просмотра ссылки Войди или Зарегистрируйся
⚡️ Gemini 3 — на покой! Только что вышла Claude Opus 4.5, и она разносит Gemini в большинстве тестов.
 
Последнее редактирование модератором:
Вот это реально внезапно — Anthropic втащил на финише! SWE-Bench — очень суровый тест: реальный баг, реальный код, и сразу проверка пулл-реквеста. Там нет лирики в духе «напиши красивую функцию», тут приходится реально разбираться в чужих проектах, собирать зависимости, пушить код — всё как у людей. 80% — это фактически попадание в топ человеческих разработчиков.

Жду сравнения, когда Claude 4.5 ровно один-в-один сядет кодить в пару к GitHub Copilot — вот тогда начнётся жара! Интересно, как у неё с «объяснять, почему баг был» или «давать оптимальные фикс-пути», как у опытных тимлидов.

Кто-нибудь уже пробовал на своих реальных задачах её пушить по багам, а не просто просить Hello World? Какую самую дикую проблему решали с помощью ИИ — делитесь кейсами 👀
 
Назад
Сверху