本文记录了在RTX 5060 Laptop 8GB显存、32GB内存的笔记本上,成功运行Qwen3.6-35B-A3B MoE视觉语言模型的全过程。从最初3 tokens/s的龟速,到最终稳定25-30 tokens/s,速度提升了10倍。同时对比分析了LM Studio和llama.cpp两种工具的配置差异,深入解释为什么只有llama.cpp需要手动加载mmproj文件。
一、硬件配置与挑战
设备信息
- 笔记本型号:ThinkBook 16 G7+ IAH
- 显卡:NVIDIA GeForce RTX 5060 Laptop GPU(8GB 显存)
- 内存:32GB
- CPU:Intel Core Ultra 7 255H
核心挑战
在8GB显存的限制下运行350亿参数的Qwen3.6-35B-A3B MoE(混合专家)视觉语言模型,面临两个主要问题:
- 显存不足:模型Q4_K_M量化后约22GB,远超8GB显存
- 推理