Skip to content

Blog

A detailed comparison between GPTQ, AWQ, EXL2, q4_K_M, q4_K_S, and load_in_4bit: perplexity, VRAM, speed, model size, and loading time.

Published at: 10/24/23, 7:24 PM

A direct comparison between llama.cpp, AutoGPTQ, ExLlama, and transformers perplexities

#perplexity

Published at: 7/14/23, 12:00 AM

A formula that predicts GGUF VRAM usage from GPU layers and context length

Published at: 5/14/25, 7:18 PM

1

Total 3 posts.