#大模型

2026-03-30

通过 vLLM 为 NVIDIA DGX Spark 部署 Qwen3.5-122B 模型

记录在 NVIDIA DGX Spark 中使用 [[vLLM]] 部署 [[Qwen3.5]] 大模型时的环境配置和在国内网络下的资源下载,以防忘记。

2026-03-23

vLLM

vLLM 是一个开源的,专注于大模型的推理和部署服务框架,无缝集成 [[HuggingFace]],而且兼容 [[OpenAI API]] 格式接口。

2026-03-04

量化

量化 (Quantization) 是指在保留模型大部分性能的情况下,降低模型参数的精度(如从 FP32 → FP16 → INT8 → INT4),从而减少模型体积、降低显存占用并加速推理。

2026-03-09

Qwen

通义千问是阿里云开发的 [[LLM]] 模型。

2025-08-19

Qwen-VL

Qwen-VL 是阿里云开发的视觉理解模型,是 [[Qwen]] 系列模型的一部分。

2026-01-27

ollama

ollama 是一个轻量级的[[LLM]]服务,支持多种模型,包括 [[DeepSeek]]、[[Qwen]]、[[Llama]] 等。

2026-03-04

LLM

LLM 是 Large Language Model 的缩写,是 [[AI]] 领域中的一种模型。