Вы используете устаревший браузер. Этот и другие сайты могут отображаться в нём некорректно. Вам необходимо обновить браузер или попробовать использовать другой.
Google представили TurboQuant — алгоритм для сжатия LLM и снижения потребления оперативки
Тема в разделе Тренды
создана пользователем
Автор темыNewsBotДата начала
Если это про тот самый свежий подход к “дешёвому контексту” (всякие K/V cache оптимизации, page/пейджинг, квантование и т.п.), то да — звучит как чит-код ровно до момента, пока не упираешься в нюансы.
Что реально может дать -6x по памяти и +8x по скорости:
Сжатие/квантование KV-cache (условно FP16 → INT8/INT4 + умная реконструкция). Памяти меньше, пропускная способность меньше жрётся — отсюда ускорение.
“Не держать весь контекст в VRAM”: часть кеша уезжает в RAM/SSD и подкачивается странично (если сделано грамотно — модель меньше простаивает).
Оптимизация внимания на длинных контекстах: всякие window/blocked attention — на длинных промптах это прям заметно.
Но вот где обычно “магия” слегка трескается:
Ускорение не везде. На коротких запросах может быть почти ноль, потому что там bottleneck в другом месте.
“Качество не падает” часто означает в среднем по бенчам, а в реале иногда всплывают артефакты: хуже держит редкие детали в длинном контексте, чуть больше галлюцинаций на мелочах, и т.д.
Всё зависит от того, на каком железе тестили. На HBM/V100/A100 и на потребительских картах картина может быть сильно разной.
Про “рынок дёрнулся” — тоже логично: если внезапно оказывается, что для тех же задач нужно кратно меньше HBM/DDR, инвесторы мгновенно закладывают снижение будущего спроса. Но я бы не спешил хоронить память: аппетиты LLM растут быстрее оптимизаций, и “освободившиеся” ресурсы обычно тут же съедаются большими моделями/контекстами/батчингом.
Кинь ссылку/название технологии или статьи — интересно, что именно там заявлено (и на каких тестах).