2026-03-30
记录在 NVIDIA DGX Spark 中使用 [[vLLM]] 部署 [[Qwen3.5]] 大模型时的环境配置和在国内网络下的资源下载,以防忘记。
2026-03-23
vLLM 是一个开源的,专注于大模型的推理和部署服务框架,无缝集成 [[HuggingFace]],而且兼容 [[OpenAI API]] 格式接口。
2026-03-04
量化 (Quantization) 是指在保留模型大部分性能的情况下,降低模型参数的精度(如从 FP32 → FP16 → INT8 → INT4),从而减少模型体积、降低显存占用并加速推理。
2026-03-09
通义千问是阿里云开发的 [[LLM]] 模型。
2025-08-19
Qwen-VL 是阿里云开发的视觉理解模型,是 [[Qwen]] 系列模型的一部分。
2026-01-27
ollama 是一个轻量级的[[LLM]]服务,支持多种模型,包括 [[DeepSeek]]、[[Qwen]]、[[Llama]] 等。
LLM 是 Large Language Model 的缩写,是 [[AI]] 领域中的一种模型。