8GB显存跑Qwen3.6 35B MoE视觉模型：从3t/s到30t/s的跨越-二趣网

8GB显存跑Qwen3.6 35B MoE视觉模型：从3t/s到30t/s的跨越

2026/6/5 10:10:03 网站建设项目流程

本文记录了在RTX 5060 Laptop 8GB显存、32GB内存的笔记本上，成功运行Qwen3.6-35B-A3B MoE视觉语言模型的全过程。从最初3 tokens/s的龟速，到最终稳定25-30 tokens/s，速度提升了10倍。同时对比分析了LM Studio和llama.cpp两种工具的配置差异，深入解释为什么只有llama.cpp需要手动加载mmproj文件。

一、硬件配置与挑战

设备信息

笔记本型号：ThinkBook 16 G7+ IAH
显卡：NVIDIA GeForce RTX 5060 Laptop GPU（8GB 显存）
内存：32GB
CPU：Intel Core Ultra 7 255H

核心挑战

在8GB显存的限制下运行350亿参数的Qwen3.6-35B-A3B MoE（混合专家）视觉语言模型，面临两个主要问题：

显存不足：模型Q4_K_M量化后约22GB，远超8GB显存
推理

标签：网站建设企业官网项目流程 UI设计前端开发

您可能感兴趣的其他内容

需要专业的网站建设服务？

联系我们获取免费的网站建设咨询和方案报价，让我们帮助您实现业务目标

立即咨询

企业官网建设流程全解析

一、硬件配置与挑战

设备信息

核心挑战

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

一、硬件配置与挑战

设备信息

核心挑战

热门文章

文章分类

标签云

相关文章

arm7零基础入门指南：用快马ai生成你的第一份带详解的汇编代码

为什么GPS、北斗都爱用L波段？从‘无线电窗口’到实战避坑的频段选择指南

项目介绍 MATLAB实现基于UKF-GARCH 无迹卡尔曼滤波（UKF）结合广义自回归条件异方差（GARCH）进行股票价格预测（含模型描述及部分示例代码）专栏近期有大量优惠 还请多多点一下关注 加油

需要专业的网站建设服务？

项目介绍 MATLAB实现基于UKF-GARCH 无迹卡尔曼滤波（UKF）结合广义自回归条件异方差（GARCH）进行股票价格预测（含模型描述及部分示例代码）专栏近期有大量优惠还请多多点一下关注加油