Qwen - 长风

通义千问是阿里云开发的 [[LLM]] 模型。

模型

所需显存估算: 模型大小 * 1.2 + KV Cache(0.5+) + 框架开销(0.5 ~ 1G)

KV Cache 计算：显存大小 * gpu-memory-utilization - 模型权重

关闭思考/thinking

Qwen 3.5 模型不支持通过 /nothink 的方式关闭，需要在 [[openapi]] 请求参数进行关闭：

1
response = client.chat.completions.create(
2
    model="Qwen3.5-35B",
3
    messages=[{"role": "user", "content": "你好"}],
4
    extra_body={
5
        "top_k": 20,
6
        "chat_template_kwargs": {"enable_thinking": False},
7
    },
8
)

参考

Qwen (Qwen)