8GB显存跑Qwen3.6 35B MoE视觉模型:从3t/s到30t/s的跨越
2026/6/5 10:10:03 网站建设 项目流程

本文记录了在RTX 5060 Laptop 8GB显存、32GB内存的笔记本上,成功运行Qwen3.6-35B-A3B MoE视觉语言模型的全过程。从最初3 tokens/s的龟速,到最终稳定25-30 tokens/s,速度提升了10倍。同时对比分析了LM Studio和llama.cpp两种工具的配置差异,深入解释为什么只有llama.cpp需要手动加载mmproj文件。

一、硬件配置与挑战

设备信息

  • 笔记本型号:ThinkBook 16 G7+ IAH
  • 显卡:NVIDIA GeForce RTX 5060 Laptop GPU(8GB 显存)
  • 内存:32GB
  • CPU:Intel Core Ultra 7 255H

核心挑战

在8GB显存的限制下运行350亿参数的Qwen3.6-35B-A3B MoE(混合专家)视觉语言模型,面临两个主要问题:

  1. 显存不足:模型Q4_K_M量化后约22GB,远超8GB显存
  2. 推理

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询