vLLM 本地部署
vLLM 是一个高性能的 LLM 推理(Inference)引擎,支持 PagedAttention 等优化技术,可以在本地 GPU 上高效运行大模型。
安装 vLLM
pip 安装
bash
pip install vllmDocker 安装(推荐)
bash
docker run --gpus all -p 8000:8000 \
vllm/vllm-openai:latest \
--model Qwen/Qwen2.5-14B-Instruct启动 vLLM 服务
bash
# 启动 OpenAI 兼容的 API 服务
vllm serve Qwen/Qwen2.5-14B-Instruct \
--host 0.0.0.0 \
--port 8000 \
--tensor-parallel-size 1常用启动参数
| 参数 | 说明 |
|---|---|
--model | 模型名称或路径 |
--host | 监听地址 |
--port | 监听端口 |
--tensor-parallel-size | GPU 并行数 |
--max-model-len | 最大上下文长度 |
--quantization | 量化方式(awq, gptq 等) |
配置 OpenClaw
vLLM 提供 OpenAI 兼容 API,可以直接作为自定义 OpenAI 提供商使用:
jsonc
// ~/.openclaw/config.json
{
"models": {
"providers": {
"vllm": {
"baseUrl": "http://localhost:8000/v1",
"apiKey": "not-needed"
}
}
}
}bash
openclaw models default set vllm/Qwen/Qwen2.5-14B-Instruct推荐模型
| 模型 | 显存需求 | 说明 |
|---|---|---|
Qwen/Qwen2.5-7B-Instruct | 16 GB | 中文优秀 |
Qwen/Qwen2.5-14B-Instruct | 28 GB | 中文最佳平衡 |
meta-llama/Llama-3.1-8B-Instruct | 16 GB | 通用能力好 |
deepseek-ai/DeepSeek-V3 | 多 GPU | 推理能力强 |
性能优化
量化加速
bash
# AWQ 量化,显存需求降低约 50%
vllm serve Qwen/Qwen2.5-14B-Instruct-AWQ \
--quantization awq多 GPU 并行
bash
# 使用 2 块 GPU 并行推理
vllm serve meta-llama/Llama-3.1-70B-Instruct \
--tensor-parallel-size 2故障排查
CUDA 内存不足
- 尝试更小的模型或量化版本
- 减小
--max-model-len - 使用多 GPU 并行
服务启动失败
- 确认已安装 CUDA 驱动
- 检查 GPU 是否可用:
nvidia-smi - 确认模型已下载完成
OpenClaw 无法连接
- 确认 vLLM 服务正在运行
- 检查
baseUrl端口是否正确
🇨🇳 中国用户须知
- 模型下载:从 Hugging Face 下载模型可能较慢,建议使用镜像站:bash
export HF_ENDPOINT="https://hf-mirror.com" - 推荐模型:优先使用 Qwen 2.5 系列,中文能力最优
- 完全离线:模型下载完成后可断网使用,数据不离开本机
- 企业级:vLLM 适合对性能有要求的企业级部署场景
