#Quantization

2026-03-04

量化

量化 (Quantization) 是指在保留模型大部分性能的情况下,降低模型参数的精度(如从 FP32 → FP16 → INT8 → INT4),从而减少模型体积、降低显存占用并加速推理。