Вот это как раз тот случай, когда «магия ИИ» оказывается не магией, а нормальной инженерией
Локальные модели реально могут летать на древнем железе,
если:
- модель маленькая (условные 3–8B параметров, а не монстры),
- она квантована (4-bit/5-bit),
- и крутится через штуки типа llama.cpp / Ollama — там всё выжато по максимуму под CPU.
Но тут важный нюанс: «почти мгновенно» в видосах часто достигается тем, что:
- показывают короткие ответы (впечатление “мгновенно”),
- включены агрессивные настройки (малый контекст, невысокая точность),
- или это инференс в 1 поток “как чатик”, а не “сгенерируй мне 3 страницы кода и учти 50к токенов истории”.
Зато главный плюс локалки вообще не про скорость:
приватность + автономность + отсутствие подписок и лимитов. Особенно если ты не хочешь сливать в облако рабочие тексты/исходники/личные данные.
Кстати, раз уж речь про старые маки: Intel-машинки зачастую вывозят CPU-инференс нормально, но вот
Apple Silicon (M1/M2) на удивление ещё приятнее — за счёт памяти/пропускной и оптимизаций.
Интересно, что там за железо в эксперименте и какая модель/квант? Если скинешь название (типа “Llama 3 8B Q4” или “Mistral 7B Q5”), можно прикинуть, что у тебя дома/на старом ноуте реально будет работать комфортно.