本地版 Qwen 与 Opus 用途不同,Qwen 3.7 或带来渐进式改进
2026/6/19 9:44:30 网站建设 项目流程

菜单

- [主页](/)
- [关于我](https://alexellis.io)
- [GitHub](https://github.com/alexellis/)
- [Twitter](https://twitter.com/alexellisuk)
- [领英](https://www.linkedin.com/in/alexellisuk/)
- **电子书**
- [• 日常 Go 编程](http://store.openfaas.com/l/everyday-golang)
- [• 面向大众的无服务器计算](http://store.openfaas.com/l/serverless-for-everyone-else)
- [• 使用 K3s 网络启动树莓派](http://store.openfaas.com/l/netbooting-raspberrypi?layout=profile)

本地版 Qwen 并非逊色于 Opus,而是用途不同的工具

2026 年 6 月 17 日

标签:[大语言模型(LLM)](/tag/llm/),[LocalAI](/tag/localai/),[智能体(Agents)](/tag/agents/)

有人称本地版 Qwen 27B 或 35 - A3B “接近 Opus 水平”,而作者凭借软件业务和开源项目的实际经验,将坦诚分享相关情况。

这篇文章并非走马观花的浅尝辄止,也不是毫无根据的宣称,而是作者作为小型软件企业创始人的亲身经历,本地模型创造了有条件限制的价值,作者希望本地模型能变得强大且可靠。

作者将介绍显卡回本情况、满足业务需求情况、不能让其无人监督工作的原因,以及 Qwen 无限循环和产生幻觉的风险,这些问题在量化适配消费级 GPU 时尤为明显。

我对 AI 的使用场景

作者作为维护者和创始人的旅程始于 OpenFaaS,早期项目完全手工打造,后加入 VMware 获取资金支持,市场变化后转向开放核心模式创立公司。如今团队维护着 [OpenFaaS](https://openfaas.com)、[SlicerVM](https://slicervm.com)、[Actuated.com](https://actuated.com)、[Inlets.com](https://inlets.dev) 等产品。

这些产品使用底层 Linux 原语,是注重效率、用户体验、控制和自主性的基础设施产品,用 Go 语言编写,部分有基于 React 的 UI 组件等,还提供一流支持。

作者自 AI 工具出现就开始使用,见证了其能力从“减少样板代码”发展到“进行端到端的设计、架构搭建和测试”,多数工作由 Claude 或 Codex 完成,作者很少手写代码。

前沿智能的转折点

大约在 2025 年 11 月到 2026 年 1 月之间出现转折点,X 平台上开发者称赞 Claude Opus 带来改变,手动编码迅速“变质”,高端编码套餐费用稳定在个人每月约 200 美元,合理使用可充分利用其价值。

本地模型的吸引力

有一种观点认为应使用能负担得起的最好的东西。2026 年是新的前沿时期,软件易被克隆,免费且够用可能最重要。

领先模型参数数量远超本地硬件支持的最佳模型,参数数量反映模型容量等。但小型密集模型 Qwen 3.6 27B 在基准测试中也能取得不错成绩,有人宣称本地模型仅比最先进水平落后 12%,甚至称旧 GPU 能取代 ChatGPT Pro 订阅。

追求基准测试高分

基准测试是动态目标,人们可训练调整模型使其获更高分。经典 SWE - Bench Verified 基准测试基于 Python 问题,而作者团队用 Go 语言编写分布式系统。

成本因素

“本地模型与成本无关”的观点站不住脚。个人每月花 200 美元可使用编码套餐获得先进智能,但编码套餐有补贴,按 API 费率付费成本突破点会更早到来。优步为开发者使用工具设定每月花费上限,占年薪一定比例。

因此,大量使用、循环任务等场景下,本地模型或开放权重模型能提供价值,但成本对很多人不是主要因素。

主权和隐私

作者团队与重视数据控制的企业客户合作,注重隐私和主权。OpenFaaS、SlicerVM、Inlets、Actuated 等产品都能让用户对数据有更多控制。

所以团队被本地模型吸引,且存在供应商风险,如 Anthropic 的 Fable 5 模型下架,本地模型可解决相关问题。

把握分寸

作者认为本地模型与最先进水平的模型不是同一种工具,以手工制作家具和处理钢材为例,团队使用本地模型的经历类似错过回火颜色,模型易陷入循环,不能无人看管处理长期任务。

我的期望

作者期望本地模型具备隐私、固定成本和防范供应商风险等优点,但使用时发现与对待 Claude 或 Codex 不同,Claude 或 Codex 可无人监管长时间工作并取得进展。

从 3090 显卡得到的惨痛教训

2023 年作者用 3090 显卡加载本地模型,发现需添加一块才能满足需求,当时本地模型难用,最终放弃。Qwen 3.5 让作者首次看到智能体完成实际工作。

作者加载模型完成任务时,Qwen 出现问题,如读取文件填满上下文、虚构文件名等。27B 模型装入 3090 显卡需调整参数,3090 显卡使用麻烦,且 vLLM 生成速度比 llama.cpp 慢。

大笔投入

作者团队为企业提供支持合同,为让本地模型正常工作,花 12000 美元买 RTX 6000 Pro Blackwell 版显卡,几个月后价格上涨,再添加一块成本过高。此次投入有回报,但不能取代 Claude 订阅。

无忧的客户支持,且不泄露客户数据

企业运维人员受手动流程限制,作者团队编写“diag”CLI 工具,运维人员运行该工具捕获 OpenFaaS 安装快照,通过本地模型处理,可在相关文章中了解更多问题。

收入追回

作者将遥测数据库输入本地模型,发现客户少报许可证数量,追回的收入够买显卡。作者不会将客户数据通过云服务处理,远东和近东地区编码套餐可能对知识产权有特权立场,本地模型也可能在算术运算等方面出错,让其专注分析而非解释更好。

我们目前的设置

作者支持对开放权重模型进行微调的人,团队在 RTX 6000 设备上同时运行 Qwopus 和基础的 27B Qwen 3.6 模型,设置会随情况变化。模型由两个独立的 llama.cpp 实例提供服务,可保留完整上下文长度。

llama.cpp 从源代码构建并按需更新,运行单个 Qwen 实例的命令可保留完整上下文长度和高质量上下文,从 MTP 推测解码中可提高速度。调整 llama.cpp 时要遵循模型卡片说明。

关于循环问题

作者调整模型避免循环,但 Qwen 仍会出现问题,如给出建议后卡住重复,处理命令时陷入循环,团队成员也有类似报告,作者很少信任其用于除客户支持/续约遥测和诊断工作外的任务。

测量和分配访问权限

作者设置 inlets 隧道,避免智能体冲突,分配设置简单,但多人使用模型时会出现管理问题,作者编写 opencode 提供者管理模型,用 Shelly Plus 插头监测功耗。

错误的比较

将本地模型每百万令牌的输入/输出成本与 OpenAI 的 GPT - 5.5 API 定价比较是错误的,更应关注持续成本,本地 AI 成为运维问题,需解决身份验证、访问控制等问题,更困难的是智能体/模型组合的可靠性等。

总结

本地版 Qwen 并非“接近 Opus 水平”,但对某些任务和工作流程有价值,且处于早期阶段会不断改进。Qwen 3.7 版本可能是渐进式改进。

作者给出实用建议:将本地模型与特定任务匹配;编写 AGENTS.md 文件;注意模型卡片调优说明;本地模型可读取解释代码库;尝试微调版本;利用智能体技能;同时使用本地和云模型;不让其处理长期无人监管任务。

目前 70B 模型较陈旧,Qwen 的 35 - A3B 变体受欢迎,还有更大模型但超出团队范围。作为消费者,不确定未来方向,27B 密集模型目前无法胜任整天编写 Go 代码的工作。可在相关文章中了解代码审查机器人和 OpenFaaS 的无忧客户支持和架构审查。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询