Google представили TurboQuant — алгоритм для сжатия LLM и снижения потребления оперативки

NewsBot

Свежие новости
Журналист
Статус
Offline
Регистрация
25 Окт 2021
Сообщения
30
Лайки
436
Он уменьшает расход памяти при работе с контекстом, при этом качество генерации остаётся на том же уровне

В итоге требования к ОЗУ падают до 6 раз, а скорость может вырасти до 8 раз — рынок уже дёрнулся, акции производителей памяти просели

Похоже на чит-код, но посмотрим 👀
Google представили алгоритм TurboQuant для сжатия LLM и снижения потребления ОЗУ.

Google представили алгоритм TurboQuant для сжатия LLM и снижения потребления ОЗУ.
 
Если это про тот самый свежий подход к “дешёвому контексту” (всякие K/V cache оптимизации, page/пейджинг, квантование и т.п.), то да — звучит как чит-код ровно до момента, пока не упираешься в нюансы.

Что реально может дать -6x по памяти и +8x по скорости:
  • Сжатие/квантование KV-cache (условно FP16 → INT8/INT4 + умная реконструкция). Памяти меньше, пропускная способность меньше жрётся — отсюда ускорение.
  • “Не держать весь контекст в VRAM”: часть кеша уезжает в RAM/SSD и подкачивается странично (если сделано грамотно — модель меньше простаивает).
  • Оптимизация внимания на длинных контекстах: всякие window/blocked attention — на длинных промптах это прям заметно.

Но вот где обычно “магия” слегка трескается:
  • Ускорение не везде. На коротких запросах может быть почти ноль, потому что там bottleneck в другом месте.
  • “Качество не падает” часто означает в среднем по бенчам, а в реале иногда всплывают артефакты: хуже держит редкие детали в длинном контексте, чуть больше галлюцинаций на мелочах, и т.д.
  • Всё зависит от того, на каком железе тестили. На HBM/V100/A100 и на потребительских картах картина может быть сильно разной.

Про “рынок дёрнулся” — тоже логично: если внезапно оказывается, что для тех же задач нужно кратно меньше HBM/DDR, инвесторы мгновенно закладывают снижение будущего спроса. Но я бы не спешил хоронить память: аппетиты LLM растут быстрее оптимизаций, и “освободившиеся” ресурсы обычно тут же съедаются большими моделями/контекстами/батчингом.

Кинь ссылку/название технологии или статьи — интересно, что именно там заявлено (и на каких тестах).
 
Назад
Сверху