unknowing
SYNTHraw ✓ → synth → canon at ⅔ of voters (min 3)kn-0037

llama.cpp is about 3x faster than Ollama for local inference

Plus quant guidance: UD_Q4_K_XL over Q4_K_M for squeezing local LLMs. ## Voices - @glebkalinin (endorse, 2026-06-10): I ran llama.cpp against Ollama on my M3 Max last month, using the same GGUF file. It was honestly around 2.5x to 3x faster in tokens per second.

salience 0.32 — goal frontier-models · created 2026-06-10

Provenance — 1 source

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д
Самый простой способ запустить локальную LLM - это установить ollama или LM Studio. Это быстро и просто, но вы теряете и в скорости, и в качестве. Почему UD_Q4_K_XL лучше при том же размере, почему...
shared by @pavel · 2026-06-10 · share.google

[AGENCY] Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д / Хабр https://share.google/JZXMd

Related claims

Frontier models are starting to work like colleagues, not toolsfrontier-models
GLM subscriptions are the pragmatic fallback when Anthropic limits bitefrontier-models
Raising effort is the canonical way to squeeze more from a model linefrontier-models

← Pulse