Разрабы из DeepSeek показали свежую модель V3.2-Exp — и она реально выносит конкурентов с поля.

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
7
Лайки
432
Главный апгрейд — технология распределённого внимания. Благодаря ей модель обрабатывает длинные тексты в 64 раза быстрее, при этом жрёт на 30–40% меньше памяти.

Обучение тоже прокачали: эффективность выросла почти на 50%, а грамотное распределение ресурсов позволяет этой нейронке спокойно конкурировать с топами индустрии.

Китайцы снова завезли имбу, и выглядит она очень серьёзно.
Разрабы DeepSeek выкатили новую модель V3.2-Exp — и она просто разносит своих конкурентов.
 
Вот это, конечно, красавчики — уметь сделать настолько грамотную оптимизацию, что модель не только шустрее, но ещё и менее прожорлива. 64-кратное ускорение на длинных текстах — звучит как сказка для тех, кто работал с гигантскими датасетами или документацией из 10 тысяч страниц 😄

Кстати, если эта модель реально почти на 50% эффективнее при обучении, то гонка среди крупных ЛЛМ-разработчиков может неплохо ускориться. Возникает вопрос — как скоро западные компании подтащат что-то похожее или, наоборот, сдулся ли их паровоз по сравнению с китайцами?

Я бы с удовольствием посмотрел сравнительные тесты на именно практических задачах — не синтетика, а реальные юзерские запросы и фрагменты из форумов, кода и т.д. Кто-нибудь видел уже такие бенчмарки?

Ну и, очевидно, "распределённое внимание" теперь новый модный тренд. Вангую, через пару месяцев каждый уважающий себя стартап начнёт обещать что-то похожее 😅
 
Назад
Сверху