记一次在双 RTX 3090 工作站上部署 vLLM 与 Qwen3.6-35B-AWQ 的实战记录-二趣网

记一次在双 RTX 3090 工作站上部署 vLLM 与 Qwen3.6-35B-AWQ 的实战记录

1. 升级目的

最近需要本地部署大模型推理服务，目标是运行Qwen3.6-35B 的 INT4 量化版本（AWQ 格式），并使用高性能推理引擎vLLM提供服务。由于模型采用 AWQ 量化，且需要较新的 CUDA 环境，现有的 CUDA 11.5 和旧版驱动已经不满足要求。因此，决定将 NVIDIA 驱动和 CUDA Toolkit 升级到CUDA 12.9 兼容版本，并在 Docker 容器中运行 vLLM，以实现环境隔离与快速部署。

2. 硬件环境

工作站型号：自组装工作站
操作系统：Ubuntu 22.04 LTS
GPU：2 × NVIDIA RTX 3090（单卡 24 GB 显存）
内存：128 GB DDR4
Docker 版本：28.0.1（已安装并运行着 Ollama、Xinference、Dify 等容器）
现有驱动：NVIDIA 570.133.07（仅支持到 CUDA 12.4）
目标驱动：NVIDIA 575.64.05（支持 CUDA 12.9）

3. 升级前准备

3.1 重要数据备份

在执行任何系统级变更前，首先备份了/home目录以及重要的 Docker 卷数据，以防不测。

3.2 下载新驱动与 CUDA 包

NVIDIA 驱动：从 NVIDIA 官方网站下载了NVIDIA-Linux-x86_64-575.64.05.run文件，存放于/mnt/hdd/ai/software/。官方下载地址可以在 NVIDIA Driver Downloads 选择相应版本获得。
CUDA Toolkit 12.9：考虑到网络稳定性，选择下载了 Runfile 格式的离线安装包（cuda_12.9.1_575.57.08_linux.run），同样保存在本地磁盘。可以在 CUDA Toolkit 12.9 下载页面按需获取。

3.3 模型下载

Qwen3.6-35B 并非官方直接发布的模型，而是社区贡献的量化版本。我选择了对 vLLM 支持最好的AWQ 格式，从 Hugging Face 仓库QuantTrio/Qwen3.6-35B-A3B-AWQ下载至本地/mnt/hdd/ai/modelscope/models/QuantTrio/Qwen3.6-35B-A3B-AWQ。若从 Hugging Face 下载缓慢，可以使用hf-mirror.com等镜像加速。

4. 升级过程与问题解决

4.1 卸载旧版驱动

首先彻底清除旧版 570 驱动，避免残留文件冲突。步骤包括：

# 切换到文本模式sudoinit3# 卸载所有 nvidia 相关包sudoapt-get--purgeremove-ynvidia-* libnvidia-*sudoaptautoremove-y# 如果原先是用 .run 文件安装的，也用原文件卸载sudobash/path/to/NVIDIA-Linux-x86_64-570.133.07.run--uninstallsudoreboot

重启后系统进入纯命令行模式，准备安装新驱动。

4.2 安装新驱动 (575)

安装前确保内核头文件等依赖已就绪：

sudoaptupdate&&sudoaptupgrade-ysudoaptinstall-ybuild-essential dkms linux-headers-$(uname-r)

然后进入文本模式运行安装程序：

sudoinit3cd/mnt/hdd/ai/software/sudochmod+x NVIDIA-Linux-x86_64-575.64.05.runsudo./NVIDIA-Linux-x86_64-575.64.05.run--dkms

安装过程中选择安装 32 位兼容库、自动配置 Xorg，并注册 DKMS。若开启了 Secure Boot，会要求设置一个临时密码用于注册 MOK 密钥（重启后会进入蓝色 MokManager 界面，按提示操作即可）。这一步很关键，否则新驱动可能无法加载。

安装完成后重启。

4.3 系统升级卡在 Docker 配置

在执行sudo apt update && sudo apt upgrade -y时，进程长时间卡在正在设置 docker-ce (5:29.5.0-1~ubuntu.22.04~jammy)。原因可能是 Docker 的daemon.json配置文件存在语法错误或守护进程无法正常重启。解决方法：

# 强制结束卡住的 dpkg 进程sudokill-9<pid># 修复未完成的配置sudodpkg--configure-a# 如果再次卡住，检查并修正 /etc/docker/daemon.json，可临时清空为 {}echo'{}'|sudotee/etc/docker/daemon.jsonsudosystemctl daemon-reloadsudosystemctl startdockersudodpkg--configure-a

之后重新运行sudo apt update && sudo apt upgrade -y即可顺利完成。

4.4 驱动安装后`nvidia-smi`报错

重启后运行nvidia-smi时出现：

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver.

这表明驱动模块未正确加载。排查过程：

检查 nouveau 驱动是否禁用：lsmod | grep nouveau有输出，说明开源驱动仍在运行。将其彻底加入黑名单：
```
echo-e"blacklist nouveau\noptions nouveau modeset=0"|sudotee/etc/modprobe.d/blacklist-nouveau.confsudoupdate-initramfs-usudoreboot
```
检查 Secure Boot 状态：执行mokutil --sb-state显示SecureBoot enabled。由于之前安装驱动时已注册 MOK，但仍可能因签名问题被拦截。直接进入 BIOS 禁用 Secure Boot 后，驱动成功加载（对于物理隔离的工作站，关闭 Secure Boot 是可接受的风险）。

或者，也可以使用 DKMS 重新编译并安装模块：

sudodkmsinstall-mnvidia-v575.64.05sudoreboot

最终nvidia-smi正确输出Driver Version: 575.64.05和CUDA Version: 12.9。

4.5 安装 CUDA 12.9 Toolkit

为了让宿主机拥有nvcc编译器（可选，实际运行 vLLM 容器并不需要），我后续又安装了 CUDA Toolkit 12.9。由于已通过 Runfile 下载离线包，安装方式为：

sudoinit3sudosystemctl stopdocker# 防止模块被占用chmod+x cuda_12.9.1_575.57.08_linux.runsudosh./cuda_12.9.1_575.57.08_linux.run

关键：在组件选择界面中，务必取消选中 “Driver” 选项，因为我们已经安装了更新版本的驱动。安装完成后重启 Docker。

配置环境变量：

echo'export PATH=/usr/local/cuda-12.9/bin:$PATH'>>~/.bashrcecho'export LD_LIBRARY_PATH=/usr/local/cuda-12.9/lib64:$LD_LIBRARY_PATH'>>~/.bashrcsource~/.bashrc nvcc--version# 验证

4.6 Docker 反复重启旧容器

完成 CUDA 安装并重启 Docker 后，systemctl status docker长时间显示activating，日志中却不断出现两个旧容器重启的循环（如docker-plugin_daemon-1和另一个容器）。这是因为这些容器设置了restart: always且启动失败，导致 Docker 守护进程看似卡死。解决方法：

sudodockerstop$(sudodockerps-aq)sudodockerrm88160c2d47b1 0d4a087c4385sudodockercontainer prune-fsudosystemctl restartdocker

Docker 恢复正常，GPU 可用性测试通过：

sudodockerrun--rm--gpusall nvidia/cuda:12.9.0-base-ubuntu22.04 nvidia-smi

4.7 部署 vLLM 并解决参数错误

我拉取了与驱动版本匹配的镜像vllm/vllm-openai:v0.20.2-cu129，并编写了docker-compose.yml。最初的版本启动时反复报错：

vllm: error: unrecognized arguments: ---trust-remote-code

检查 YAML 文件发现command列表中--trust-remote-code那一行缺少了列表标记-，导致被解析为---trust-remote-code。修正后即可正常启动。

最终的docker-compose.yml如下（使用位置参数，避免未来--model选项弃用）：

services:vllm:image:vllm/vllm-openai:v0.20.2-cu129container_name:vllmrestart:alwaysports:-"18000:8000"networks:-docker_defaultvolumes:-/mnt/hdd/ai/modelscope/models/QuantTrio/Qwen3.6-35B-A3B-AWQ:/model:ro-/usr/share/zoneinfo/Asia/Shanghai:/etc/localtime-/etc/timezone:/etc/timezoneenvironment:-TZ=Asia/Shanghaideploy:resources:reservations:devices:-driver:nvidiacount:allcapabilities:[gpu]command:-/model---trust-remote-code---tensor-parallel-size-"2"---dtype-auto---max-model-len-"16384"---gpu-memory-utilization-"0.85"---enable-prefix-caching---quantization-awq---enable-chunked-prefillnetworks:docker_default:external:true

经过测试，双 RTX 3090 可以稳定运行该模型，max-model-len可根据实际显存余量从 8192 逐步上调至 16384 甚至更高。

4.8 监控与交互

为了方便监控和快速测试，我又安装了vllm-playground。由于没有官方 Docker 镜像，我编写了一个简单的 Dockerfile 自己构建容器：

FROM python:3.11-slim RUN pip install --no-cache-dir vllm-playground EXPOSE 7860 ENV VLLM_URL=http://vllm:8000 CMD ["vllm-playground", "--host", "0.0.0.0", "--port", "7860"]

并在同一个docker-compose.yml中加入服务，共享docker_default网络。启动后访问http://<工作站IP>:7860即可直接与模型对话，同时观察基础吞吐量指标。更详细的 GPU 显存、请求并发等指标则通过访问http://<工作站IP>:18000/metrics获取。

5. 注意事项

驱动版本与 CUDA 必须严格匹配：NVIDIA 575 驱动最低要求 CUDA 12.9，旧版驱动无法使用新 Toolkit，反之亦然。
Secure Boot：如果开启了 Secure Boot，安装第三方驱动（.run 文件）需要注册 MOK 密钥，否则内核将拒绝加载模块。若工作站处于安全环境中，可考虑直接关闭 Secure Boot 简化流程。
卸载旧驱动必须彻底：新旧驱动混合残留是导致nvidia-smi失败的主要元凶之一。建议使用多种方式（apt、runfile 卸载、手动清理）确保干净。
Docker 配置检查：在升级系统或驱动后，务必检查 Docker 的daemon.json和 NVIDIA Container Toolkit 是否正确安装，并确保容器重启策略不会造成死循环。
容器化推荐：实际上，运行 vLLM 等应用不需要在宿主机安装 CUDA Toolkit，仅需安装 NVIDIA 驱动和 NVIDIA Container Toolkit。镜像内已包含所需的 CUDA 运行时，这样能最大程度避免版本冲突。本次安装 Toolkit 主要是为了本机编译调试。
显存优化：双 RTX 3090 虽然总显存 48 GB，但在张量并行模式下，每张卡都需要为模型权重和 KV Cache 留出空间。可通过--gpu-memory-utilization和--max-model-len精细调节，避免 OOM。
模型文件完整性：确保下载的 AWQ 格式模型包含所有必要文件（如config.json、tokenizer.json、.safetensors等），否则 vLLM 将无法加载。

整体感受就是对于个人用户，ollama真的是非常友好，ollama run就可以自动拉取大模型并且运行了。

附：vLLM 与 Qwen3.6-35B-INT4 简介

vLLM

vLLM 是一个高性能的大语言模型推理和服务引擎，支持张量并行、连续批处理、PagedAttention 等特性，能够显著提升 GPU 利用率和吞吐量。它原生支持 OpenAI 兼容 API，可以无缝对接现有生态。目前 vLLM 对量化模型的支持（如 AWQ、GPTQ）也非常成熟。

Qwen3.6-35B-A3B-AWQ

这是基于通义千问 Qwen3.6 架构的35B 参数 MoE（混合专家）模型，实际激活参数约 3B，经过4-bit AWQ 量化后，模型文件大小约 20 GB。得益于 MoE 设计，它在保持较高推理质量的同时大幅降低了计算量和显存需求，非常适合消费级显卡（如 RTX 3090）的本地部署。在 vLLM 中配合张量并行和量化推理，可以流畅支持 16K 甚至更长的上下文。

企业官网建设流程全解析