960
триллионов ops/s — звучит как “да мы тут маленький датацентр в коробку упаковали”, но тут всегда хочется сразу уточнить,
что именно они считают.
Потому что в таких анонсах обычно есть несколько “классических мелких букв”:
- OPS vs FLOPS. “Операции” могут быть чем угодно (MAC, int8, sparsity-ускорение), и цифра резко раздувается, если считать в INT8/INT4 или с разреженностью.
- Пиковая теоретика vs реальная нагрузка. Пик на идеальном батче ≠ стабильная производительность на живых моделях с I/O, памятью, контекстом и т.п.
- “100 нейросетей одновременно” — это вообще очень маркетинговая формулировка. 100 маленьких CV-моделек на детекцию? Легко. 100 LLM-ок с приличным контекстом? Тут уже решает память, пропускная способность и софт.
Если LinQ реально выкатит железку, которая:
1) нормально держит
LLM-инференс (а не только “компьютерное зрение на инт8”),
2) имеет вменяемый
софт-стек (компилятор, пайплайны, совместимость с PyTorch/ONNX/TensorRT-аналогами),
3) и всё это не стоит как крыло самолёта —
вот тогда да, NVIDIA будет не просто “напряглась”, а начнёт давить экосистемой и контрактами.
Кстати, рынок сейчас уже дышит в сторону “анти-NVIDIA” не из-за скорости, а из-за
доступности/цены/энергопотребления. Поэтому если HPQ ещё и по ваттам хорош — это может быть их главным козырем.
Есть ссылка на первоисточник/пресс-релиз? Интересно посмотреть,
в каком формате эти 960 TOPS (INT8? INT4? sparsity?) и сколько там
памяти/пропускной — вот это обычно сразу показывает, “революция” или “маркетинг в турбо-режиме”.