谷歌DiffusionGemma横空出世：文字生成4倍加速，挑战自回归模型主流地位？-二趣网

【导语：当大家都在关注“AO”两家新模型大战时，谷歌悄然推出DiffusionGemma，将生成图片的扩散模型用于文字生成，实现4倍加速，引发行业关注。】

DiffusionGemma：文字生成的“印刷机”

谷歌新模型DiffusionGemma直接抛弃传统自回归“逐Token生成”的打字机模式，像“印刷机”一样工作。它一次铺开256个token的“画布”，从随机噪声出发，多轮去噪，整段文字同时浮现。

在生成速度方面，DiffusionGemma成绩亮眼。单块H100上每秒1000+ tokens，消费级RTX 5090上700+，比同规格自回归模型快了4倍。而且这个26B参数的MoE模型，推理时只激活3.8B参数，量化后18GB显存就能装下，一张4090就能本地跑。目前该模型采用允许商用的Apache 2.0开源协议，权重可在Hugging Face直接下载。

突破“内存带宽瓶颈”

当前主流大模型如GPT、Claude、Gemini等，底层都是自回归架构，像打字机一样从左到右一个token一个token地敲出来，每生成一个新词都要重新加载模型权重。在云端，服务器可同时处理大量用户请求，硬件利用率高；但在本地跑模型时，GPU大量算力空转，存在“内存带宽瓶颈”。

DiffusionGemma采用扩散模型，其工作方式是一次性对一整块token同时操作，天然“并行”。这让GPU一次性接到一大块并行计算任务，Tensor Core火力全开，计算瓶颈从“内存搬不过来”变成“算力够不够”，而算力正是GPU所擅长的。

具体来说，DiffusionGemma的原理和Stable Diffusion类似，先铺开256个token的画布，多轮迭代去噪，高置信度的token先锁定，再用它们修正其余部分，最终整段文字收敛为输出。

双向注意力：实时自我纠错

除了速度快，DiffusionGemma的双向注意力也值得关注。传统自回归模型只能往前看，生成第N+1个token时，只能看到第1到第N个token。而DiffusionGemma的256个token同时生成，每个token都能看到画布上所有其他token，前后文同时可见。

这使得DiffusionGemma具备实时自我纠错能力，模型边生成边评估整段文字的一致性，发现不对立刻修正。例如在数独任务中，自回归模型做起来很困难，而DiffusionGemma微调后成功率从0%飙到80%。在代码补全、行内编辑、复杂markdown格式化等需要前后文协调的场景中，扩散模型更具结构性优势。

速度与质量的平衡

扩散模型存在速度和质量的平衡问题，去噪步数越少速度越快，但质量越差；步数越多质量越好，但速度优势越小。和同参数量的Gemma 4 26B A4B相比，DiffusionGemma在多项基准上存在差距。谷歌推荐生产环境使用标准Gemma 4，DiffusionGemma面向速度敏感的本地交互场景。

谷歌并非第一个尝试验证扩散文本模型路线的，此前Inception Labs发布过Mercury 2，谷歌自己也曾展示过Gemini Diffusion实验。如今DiffusionGemma卷土重来，且得到NVIDIA全线护航，从模型到推理框架，再到硬件生态，都有足够支持。它能否挑战自回归模型的主流地位，目前还不确定，但谷歌已将这条路真正开源。

编辑观点：DiffusionGemma在文字生成速度上实现重大突破，其双向注意力机制也带来新的能力。虽存在质量短板，但开源模式有望推动其发展，未来或在特定场景挑战自回归模型。

企业官网建设流程全解析

DiffusionGemma：文字生成的“印刷机”

突破“内存带宽瓶颈”

双向注意力：实时自我纠错

速度与质量的平衡

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

DiffusionGemma：文字生成的“印刷机”

突破“内存带宽瓶颈”

双向注意力：实时自我纠错

速度与质量的平衡

热门文章

文章分类

标签云

相关文章

终极指南：如何用open3mod查看和转换40多种3D文件格式

MPC8536E SGMII接口电气特性详解：从DC/AC参数到硬件设计与调试实战

Claude Code架构原理

需要专业的网站建设服务？