【导语:当大家都在关注“AO”两家新模型大战时,谷歌悄然推出DiffusionGemma,将生成图片的扩散模型用于文字生成,实现4倍加速,引发行业关注。】
谷歌新模型DiffusionGemma直接抛弃传统自回归“逐Token生成”的打字机模式,像“印刷机”一样工作。它一次铺开256个token的“画布”,从随机噪声出发,多轮去噪,整段文字同时浮现。
在生成速度方面,DiffusionGemma成绩亮眼。单块H100上每秒1000+ tokens,消费级RTX 5090上700+,比同规格自回归模型快了4倍。而且这个26B参数的MoE模型,推理时只激活3.8B参数,量化后18GB显存就能装下,一张4090就能本地跑。目前该模型采用允许商用的Apache 2.0开源协议,权重可在Hugging Face直接下载。
当前主流大模型如GPT、Claude、Gemini等,底层都是自回归架构,像打字机一样从左到右一个token一个token地敲出来,每生成一个新词都要重新加载模型权重。在云端,服务器可同时处理大量用户请求,硬件利用率高;但在本地跑模型时,GPU大量算力空转,存在“内存带宽瓶颈”。
DiffusionGemma采用扩散模型,其工作方式是一次性对一整块token同时操作,天然“并行”。这让GPU一次性接到一大块并行计算任务,Tensor Core火力全开,计算瓶颈从“内存搬不过来”变成“算力够不够”,而算力正是GPU所擅长的。
具体来说,DiffusionGemma的原理和Stable Diffusion类似,先铺开256个token的画布,多轮迭代去噪,高置信度的token先锁定,再用它们修正其余部分,最终整段文字收敛为输出。
除了速度快,DiffusionGemma的双向注意力也值得关注。传统自回归模型只能往前看,生成第N+1个token时,只能看到第1到第N个token。而DiffusionGemma的256个token同时生成,每个token都能看到画布上所有其他token,前后文同时可见。
这使得DiffusionGemma具备实时自我纠错能力,模型边生成边评估整段文字的一致性,发现不对立刻修正。例如在数独任务中,自回归模型做起来很困难,而DiffusionGemma微调后成功率从0%飙到80%。在代码补全、行内编辑、复杂markdown格式化等需要前后文协调的场景中,扩散模型更具结构性优势。
扩散模型存在速度和质量的平衡问题,去噪步数越少速度越快,但质量越差;步数越多质量越好,但速度优势越小。和同参数量的Gemma 4 26B A4B相比,DiffusionGemma在多项基准上存在差距。谷歌推荐生产环境使用标准Gemma 4,DiffusionGemma面向速度敏感的本地交互场景。
谷歌并非第一个尝试验证扩散文本模型路线的,此前Inception Labs发布过Mercury 2,谷歌自己也曾展示过Gemini Diffusion实验。如今DiffusionGemma卷土重来,且得到NVIDIA全线护航,从模型到推理框架,再到硬件生态,都有足够支持。它能否挑战自回归模型的主流地位,目前还不确定,但谷歌已将这条路真正开源。
编辑观点:DiffusionGemma在文字生成速度上实现重大突破,其双向注意力机制也带来新的能力。虽存在质量短板,但开源模式有望推动其发展,未来或在特定场景挑战自回归模型。