如果你稍微了解深度学习的历史,一定对“何恺明”这个名字不陌生。2015年,他在微软亚洲研究院提出了残差网络(ResNet),一举解决了深层神经网络难以训练的瓶颈,至今仍是AI领域被引用次数最多的论文之一。ResNet的残差连接结构已渗透进Transformer、AlphaGo Zero、AlphaFold等几乎所有现代AI系统。
2024年,何恺明从Meta AI加盟MIT,开始系统研究生成模型。就在最近,他与MIT的团队放出了一篇重磅论文——ELF: Embedded Language Flows
论文地址:https://arxiv.org/pdf/2605.10938v1
代码仓库:GitHub - lillian039/ELF · GitHub
“我看到何恺明的论文,我就点进去”——这句话在AI社区早已成为共识。而这次,ELF不仅延续了何恺明一贯的“简洁深刻”风格,更在语言生成领域开辟了一条新路:放弃主流的自回归“逐词预测”,拥抱扩散模型的“同时去噪”。
“语言是离散的砖块,但思维是连续的流水。”
在人工智能领域,大语言模型(LLM)通常像我们打字一样,一个字一个字地往后猜(自回归模式)。尽管去年LLaDA等项目证明了扩散模型也能写好文章,引发了业界对**扩散语言模型(DLM)**的关注。然而,扩散模型天生擅长处理连续的信号(如图片像素),而文字却是离散的字词。这就好比用处理水流的方法去堆砌砖块,天然存在“水土不服”。
当大多数人还在纠结如何更好地“堆砖块”时,何恺明带领的MIT团队选择了一条看似艰难却更为优雅的道路:不碰砖块,直接在水流中完成创作,直到最后一刻才凝固成字。
结果令人震惊:ELF仅用了主流方法十分之一的训练数据,就在生成质量上实现了全面超越。
1. 核心理念:语言是离散的,但模型不一定是
过去两年,扩散语言模型(Diffusion Language Model, DLM)的研究主要分为两派:
离散扩散语言模型(Discrete DLM):直接在token空间里定义扩散过程,比如用MASK遮盖token再逐步还原(MDLM、LLaDA、Dream 7B等)。这条路效果更好,一直是主流。
连续扩散语言模型(Continuous DLM):先把token映射到连续嵌入向量,在连续空间里去噪,最后再转回token。理论上更优雅,但实际效果长期落后于离散派。
为什么连续派一直“不香”?因为语言本质上是离散的——文字是一串有限的词汇,而扩散模型天生擅长处理连续数据(如图像、音频)。过去的方法(如Diffusion-LM)虽然在嵌入空间去噪,但每一步都要算一次token-level的交叉熵,相当于把连续轨迹硬绑在词表上,导致流畅性受限。
何恺明团队的判断恰恰相反:问题不是“语言必须离散”,而是前人没有让连续路线“连续到底”。
论文共一作者 Linlu Qiu 的推文
ELF 的核心思路只有一句话:把扩散过程搬进连续的向量空间,只在最后一步才把结果翻译成词。
此前连续派(Continuous DLM)表现不佳的主要原因,在于它们没有让连续路线“连续到底”。例如,Diffusion-LM 虽然在 Embedding 空间去噪,但每一步都要计算 Token-level 的交叉熵,强行将连续轨迹绑在词表上;而 Latent Diffusion 类方法则需要单独训练一个 Decoder 将 Latent 解回 Token。
何恺明团队的判断恰恰相反:问题不是“语言必须离散”,而是前人打断了流动的连续性。
ELF 的设计哲学是:不打断流动的连续性,让扩散动力学有最大的自由度。正因为全程都在向量空间里,图像扩散领域成熟的技术(如 Classifier-Free Guidance, CFG)可以几乎原封不动地搬进来使用。
靠着仅 105M 的小参数、45B 的训练量,加上仅仅 32 步的快速采样,它竟然正面硬刚并击败了一批主流扩散语言模型。
最硬核的成绩单是:在 OpenWebText 上,它的生成困惑度(Generative Perplexity)直接压到了24。
简单说,困惑度越低,说明生成的文本越像真人写的,“AI 味儿”越淡,质量越高。
要知道,ELF 用的训练数据不到对手的十分之一,采样步数也更少,结果反而更自然、更精准。
可以说,在过去很长一段时间里,扩散语言模型的进展,几乎都发生在离散DLM(Discrete DLM)这一侧。
而ELF第一次证明了一件事:连续的方法,不但能跑,而且效果惊艳。
2. ELF 深度解析:如何做到“连续到底”?
ELF 的核心设计理念可以概括为:中间去噪完全在连续空间,最终生成只在最后一步离散化。它第一次将“连续表示”和“离散输出”这两个过去被认为必须反复对齐的问题,彻底拆开了。
下面我们从三个关键环节详细拆解 ELF 的技术实现:
2.1 第一步:Token 如何变成连续表示?
要把连续扩散用在语言上,第一步必须解决离散到连续的映射。
映射机制:ELF 先将输入文本切分为 Token 序列,然后映射到连续 Embedding 空间。
Encoder 的选择:默认情况下,ELF 使用预训练的T5 Encoder来生成双向上下文感知的 Embedding。论文也测试了联合训练(Jointly trained)或随机初始化的 Embedding方案,但预训练 Encoder 效果最佳。
关键细节:这个 Encoder仅在训练阶段使用。在推理时,模型直接从噪声开始生成,不需要额外的 Encoder 模块,因此不会增加推理时的计算负担。
2.2 第二步:在连续 Embedding 空间做 Flow Matching
拿到连续表示后,ELF 在 Embedding 连续空间中进行去噪。
A. 定义流动轨迹
Flow Matching 定义了一条从噪声到真实数据的连续流动轨迹:
t=0 时:状态是高斯噪声。
t=1 时:状态是干净的 Embedding。
中间所有状态 zt:都是两者的线性插值,即论文中提到的Rectified Flow(整流流)。
B. 预测目标:为什么选择 x-prediction?
在传统 Flow Matching中,神经网络通常预测“速度场” v(即数据流动的方向和速度)。但 ELF 沿用了何恺明团队半年前在《Back to Basics》中提出的思路——直接预测干净的 Embedding xx(即 x-prediction)。不知道这篇《Back to Basics》这篇论文的可以看下这篇文章:大道至简:何恺明团队新作JiT_扩散模型jitcsdn-CSDN博客
论文链接:[2511.13720v1] Back to Basics: Let Denoising Generative Models Denoise
Github 链接:https://github.com/LTH14/JiT
为什么这么做?论文给出了两个核心理由:
高维稳定性:Token Embedding 通常是高维向量(如 768 维或更高)。在高维空间中,直接预测目标值 x 比预测速度场 v 更加稳定,训练收敛更容易。
目标对齐与权重共享:x-prediction 天然与最后一步“预测干净 Token”的目标对齐。
如果采用 v-prediction,需要先预测 v,再通过积分换算成 x。这导致去噪阶段(Denoiser)和解码阶段(Decoder)难以共享权重。
实验发现,一旦尝试在 v-prediction 框架下共享权重,效果明显变差。而 x-prediction 允许 Denoiser 和 Decoder 使用同一套网络参数,极大地简化了模型结构。
训练目标:最小化预测 Embedding x^ 和真实干净 Embedding x 之间的均方误差(MSE)。
2.3 第三步:从连续 Embedding 回到离散 Token
生成语言,最终输出必须是离散 Token。ELF 在这一步的设计最为精妙,它拒绝了额外训练 Decoder 的传统做法。
A. 统一的网络架构
ELF 将最后一步视为一次Continuous-to-Discrete Decoding。
参数共享:Decoder 和前面的 Denoiser 其实是同一个网络。
模式控制:网络额外接收一个二值的
mode token:Denoise Mode:用于中间步骤的去噪。Decode Mode:用于最后一步的解码。
B. 解决“最后一步太简单”的问题
理论上,当 t→1 时,输入已经非常接近干净 Embedding,直接投影可能导致训练退化(Trivial Solution)。为了解决这个问题,ELF 引入了Token-level Corruption:
在最后一步 (t=1),故意对干净的 Embedding 加入扰动,构造出一个带噪声的输入。
网络在
Decode Mode下,从这个受扰动的 Embedding 恢复出干净 Embedding。随后,通过一个可学习的Unembedding 矩阵 W,将干净 Embedding 投影成 Token Logits。
损失函数:使用标准的 Token-level Cross-Entropy Loss。
这种设计使得网络在训练时,既学习了如何去噪(MSE Loss),也学习了如何解码(CE Loss),且两者共享底层特征提取能力。
C. 推理流程
从高斯噪声 z0出发。
在连续空间中逐步去噪,直到 t=1。
切换到
Decode Mode。通过 Unembedding 矩阵 WW 得到 Logits。
使用 Argmax 输出最终 Token。
2.4 引入 Classifier-Free Guidance (CFG)
为了进一步提升生成质量,ELF 还将图像生成中常用的CFG技术搬了过来:
Self-Conditioning:利用 Self-conditioning 作为条件信号。
Training-time CFG:在训练时模拟两次推理(一次有条件,一次无条件),从而在推理时无需增加额外的 Forward pass 开销,即可实现 CFG 的效果。
3.实验对比
实验部分,ELF 用一组极具反差的数据,彻底终结了关于“连续扩散是否适合语言建模”的争论:它不仅可行,更在生成质量、推理速度、训练能效这三个核心维度上,实现了对现有方案的全面超越。
首先,在无条件生成能力上,ELF 展现了惊人的效率与质量平衡。对比的核心在于“如何用最少的步数跑出最好的效果”,ELF 在零蒸馏(即没有经过额外加速微调)的前提下,仅凭 32 步 SDE 采样,就将生成困惑度(PPL)压低到了 24。相比之下,主流离散扩散模型(如 MDLM、Duo)通常需要 1024 步的漫长迭代才能触及这一质量线,即便是那些经过专门蒸馏加速的对手,在同等少步数下的表现也远逊于 ELF,这直接证明了其在原生推理速度上的巨大优势。
其次,训练成本的悬殊差距进一步凸显了 ELF 的数据效率。达成上述优异成绩,ELF 仅消耗了 45B(450亿)Token 的训练数据,而同量级的竞争对手普遍依赖 500B+(5000亿以上)的海量数据堆砌。这意味着 ELF 用对手十分之一的数据量和三十分之一的推理步数,跑出了更好的效果,这不仅是技术架构的胜利,更是对传统“大力出奇迹”训练范式的一次高效碾压,大幅降低了语言模型的开发门槛。
再者,在扩散模型传统弱项的条件生成任务中,ELF 打破了“扩散模型做不好精确控制”的刻板印象。在 WMT14 德英翻译任务中,ELF 拿下了 26.4 的 BLEU 分数,不仅大幅领先于离散扩散模型 MDLM(18.4)和连续基线 CDCD(24.9),甚至反超了同等规模的自回归模型基线(25.2);同时在 XSum 新闻摘要任务中,ELF 在 ROUGE-1/2/L 三项关键指标上均位列第一,稳定压制了所有现有的扩散语言模型,证明了其在指令遵循和语义准确性上的强大实力。
最后,通过细致的消融实验,ELF 锁定了成功的关键设计要素,其中无分类器指导(CFG)的引入起到了画龙点睛的作用。研究发现,增加 CFG 尺度能显著降低生成困惑度,虽然会轻微牺牲多样性(熵),但通过扫描 CFG 尺度可以找到最佳的质量-多样性权衡点;配合预训练上下文 Embedding 提供的语义起点、x-prediction 实现的权重共享架构,以及 SDE 采样器对质量上限的挖掘,这些策略共同构成了 ELF 的核心竞争力。论文总结虽克制地称其为极佳的 Trade-off,但翻译成人话就是:连续派以前之所以显得“不能打”,是因为没把连续化的优势吃透,只要路径正确,连续扩散能以十分之一的代价,把离散模型按在地上摩擦。