#大模型

2026-03-30

通过 vLLM 为 NVIDIA DGX Spark 部署 Qwen3.5-122B 模型

记录在 NVIDIA DGX Spark 中使用 [[vLLM]] 部署 [[Qwen3.5]] 大模型时的环境配置和在国内网络下的资源下载，以防忘记。

2026-03-23

vLLM 是一个开源的，专注于大模型的推理和部署服务框架，无缝集成 [[HuggingFace]]，而且兼容 [[OpenAI API]] 格式接口。

2026-03-04

量化 (Quantization) 是指在保留模型大部分性能的情况下，降低模型参数的精度（如从 FP32 → FP16 → INT8 → INT4），从而减少模型体积、降低显存占用并加速推理。

2026-03-09

通义千问是阿里云开发的 [[LLM]] 模型。

2025-08-19

Qwen-VL 是阿里云开发的视觉理解模型，是 [[Qwen]] 系列模型的一部分。

2026-01-27

ollama 是一个轻量级的[[LLM]]服务，支持多种模型，包括 [[DeepSeek]]、[[Qwen]]、[[Llama]] 等。

2026-03-04

LLM 是 Large Language Model 的缩写，是 [[AI]] 领域中的一种模型。