何恺明团队最新论文ELF：连续扩散语言模型的逆袭之路-二趣网

如果你稍微了解深度学习的历史，一定对“何恺明”这个名字不陌生。2015年，他在微软亚洲研究院提出了残差网络（ResNet），一举解决了深层神经网络难以训练的瓶颈，至今仍是AI领域被引用次数最多的论文之一。ResNet的残差连接结构已渗透进Transformer、AlphaGo Zero、AlphaFold等几乎所有现代AI系统。

2024年，何恺明从Meta AI加盟MIT，开始系统研究生成模型。就在最近，他与MIT的团队放出了一篇重磅论文——ELF: Embedded Language Flows

论文地址：https://arxiv.org/pdf/2605.10938v1

代码仓库：GitHub - lillian039/ELF · GitHub

“我看到何恺明的论文，我就点进去”——这句话在AI社区早已成为共识。而这次，ELF不仅延续了何恺明一贯的“简洁深刻”风格，更在语言生成领域开辟了一条新路：放弃主流的自回归“逐词预测”，拥抱扩散模型的“同时去噪”。

“语言是离散的砖块，但思维是连续的流水。”

在人工智能领域，大语言模型（LLM）通常像我们打字一样，一个字一个字地往后猜（自回归模式）。尽管去年LLaDA等项目证明了扩散模型也能写好文章，引发了业界对**扩散语言模型（DLM）**的关注。然而，扩散模型天生擅长处理连续的信号（如图片像素），而文字却是离散的字词。这就好比用处理水流的方法去堆砌砖块，天然存在“水土不服”。

当大多数人还在纠结如何更好地“堆砖块”时，何恺明带领的MIT团队选择了一条看似艰难却更为优雅的道路：不碰砖块，直接在水流中完成创作，直到最后一刻才凝固成字。

结果令人震惊：ELF仅用了主流方法十分之一的训练数据，就在生成质量上实现了全面超越。

1. 核心理念：语言是离散的，但模型不一定是

过去两年，扩散语言模型（Diffusion Language Model, DLM）的研究主要分为两派：

离散扩散语言模型（Discrete DLM）：直接在token空间里定义扩散过程，比如用MASK遮盖token再逐步还原（MDLM、LLaDA、Dream 7B等）。这条路效果更好，一直是主流。
连续扩散语言模型（Continuous DLM）：先把token映射到连续嵌入向量，在连续空间里去噪，最后再转回token。理论上更优雅，但实际效果长期落后于离散派。

为什么连续派一直“不香”？因为语言本质上是离散的——文字是一串有限的词汇，而扩散模型天生擅长处理连续数据（如图像、音频）。过去的方法（如Diffusion-LM）虽然在嵌入空间去噪，但每一步都要算一次token-level的交叉熵，相当于把连续轨迹硬绑在词表上，导致流畅性受限。

何恺明团队的判断恰恰相反：问题不是“语言必须离散”，而是前人没有让连续路线“连续到底”。

论文共一作者 Linlu Qiu 的推文

ELF 的核心思路只有一句话：把扩散过程搬进连续的向量空间，只在最后一步才把结果翻译成词。

此前连续派（Continuous DLM）表现不佳的主要原因，在于它们没有让连续路线“连续到底”。例如，Diffusion-LM 虽然在 Embedding 空间去噪，但每一步都要计算 Token-level 的交叉熵，强行将连续轨迹绑在词表上；而 Latent Diffusion 类方法则需要单独训练一个 Decoder 将 Latent 解回 Token。

何恺明团队的判断恰恰相反：问题不是“语言必须离散”，而是前人打断了流动的连续性。

ELF 的设计哲学是：不打断流动的连续性，让扩散动力学有最大的自由度。正因为全程都在向量空间里，图像扩散领域成熟的技术（如 Classifier-Free Guidance, CFG）可以几乎原封不动地搬进来使用。

靠着仅 105M 的小参数、45B 的训练量，加上仅仅 32 步的快速采样，它竟然正面硬刚并击败了一批主流扩散语言模型。

最硬核的成绩单是：在 OpenWebText 上，它的生成困惑度（Generative Perplexity）直接压到了24。

简单说，困惑度越低，说明生成的文本越像真人写的，“AI 味儿”越淡，质量越高。

要知道，ELF 用的训练数据不到对手的十分之一，采样步数也更少，结果反而更自然、更精准。

可以说，在过去很长一段时间里，扩散语言模型的进展，几乎都发生在离散DLM（Discrete DLM）这一侧。

而ELF第一次证明了一件事：连续的方法，不但能跑，而且效果惊艳。

2. ELF 深度解析：如何做到“连续到底”？

ELF 的核心设计理念可以概括为：中间去噪完全在连续空间，最终生成只在最后一步离散化。它第一次将“连续表示”和“离散输出”这两个过去被认为必须反复对齐的问题，彻底拆开了。

下面我们从三个关键环节详细拆解 ELF 的技术实现：

2.1 第一步：Token 如何变成连续表示？

要把连续扩散用在语言上，第一步必须解决离散到连续的映射。

映射机制：ELF 先将输入文本切分为 Token 序列，然后映射到连续 Embedding 空间。
Encoder 的选择：默认情况下，ELF 使用预训练的T5 Encoder来生成双向上下文感知的 Embedding。论文也测试了联合训练（Jointly trained）或随机初始化的 Embedding方案，但预训练 Encoder 效果最佳。
关键细节：这个 Encoder仅在训练阶段使用。在推理时，模型直接从噪声开始生成，不需要额外的 Encoder 模块，因此不会增加推理时的计算负担。

2.2 第二步：在连续 Embedding 空间做 Flow Matching

拿到连续表示后，ELF 在 Embedding 连续空间中进行去噪。

A. 定义流动轨迹

Flow Matching 定义了一条从噪声到真实数据的连续流动轨迹：

t=0 时：状态是高斯噪声。
t=1 时：状态是干净的 Embedding。
中间所有状态 zt：都是两者的线性插值，即论文中提到的Rectified Flow（整流流）。

B. 预测目标：为什么选择 x-prediction？

在传统 Flow Matching中，神经网络通常预测“速度场” v（即数据流动的方向和速度）。但 ELF 沿用了何恺明团队半年前在《Back to Basics》中提出的思路——直接预测干净的 Embedding xx（即 x-prediction）。不知道这篇《Back to Basics》这篇论文的可以看下这篇文章：大道至简：何恺明团队新作JiT_扩散模型jitcsdn-CSDN博客

论文链接：[2511.13720v1] Back to Basics: Let Denoising Generative Models Denoise
Github 链接：https://github.com/LTH14/JiT

为什么这么做？论文给出了两个核心理由：

高维稳定性：Token Embedding 通常是高维向量（如 768 维或更高）。在高维空间中，直接预测目标值 x 比预测速度场 v 更加稳定，训练收敛更容易。
目标对齐与权重共享：x-prediction 天然与最后一步“预测干净 Token”的目标对齐。
- 如果采用 v-prediction，需要先预测 v，再通过积分换算成 x。这导致去噪阶段（Denoiser）和解码阶段（Decoder）难以共享权重。
- 实验发现，一旦尝试在 v-prediction 框架下共享权重，效果明显变差。而 x-prediction 允许 Denoiser 和 Decoder 使用同一套网络参数，极大地简化了模型结构。

训练目标：最小化预测 Embedding x^ 和真实干净 Embedding x 之间的均方误差（MSE）。

2.3 第三步：从连续 Embedding 回到离散 Token

生成语言，最终输出必须是离散 Token。ELF 在这一步的设计最为精妙，它拒绝了额外训练 Decoder 的传统做法。

A. 统一的网络架构

ELF 将最后一步视为一次Continuous-to-Discrete Decoding。

参数共享：Decoder 和前面的 Denoiser 其实是同一个网络。
模式控制：网络额外接收一个二值的mode token：
- Denoise Mode：用于中间步骤的去噪。
- Decode Mode：用于最后一步的解码。

B. 解决“最后一步太简单”的问题

理论上，当 t→1 时，输入已经非常接近干净 Embedding，直接投影可能导致训练退化（Trivial Solution）。为了解决这个问题，ELF 引入了Token-level Corruption：

在最后一步 (t=1)，故意对干净的 Embedding 加入扰动，构造出一个带噪声的输入。
网络在Decode Mode下，从这个受扰动的 Embedding 恢复出干净 Embedding。
随后，通过一个可学习的Unembedding 矩阵 W，将干净 Embedding 投影成 Token Logits。
损失函数：使用标准的 Token-level Cross-Entropy Loss。

这种设计使得网络在训练时，既学习了如何去噪（MSE Loss），也学习了如何解码（CE Loss），且两者共享底层特征提取能力。

C. 推理流程

从高斯噪声 z0出发。
在连续空间中逐步去噪，直到 t=1。
切换到Decode Mode。
通过 Unembedding 矩阵 WW 得到 Logits。
使用 Argmax 输出最终 Token。

2.4 引入 Classifier-Free Guidance (CFG)

为了进一步提升生成质量，ELF 还将图像生成中常用的CFG技术搬了过来：

Self-Conditioning：利用 Self-conditioning 作为条件信号。
Training-time CFG：在训练时模拟两次推理（一次有条件，一次无条件），从而在推理时无需增加额外的 Forward pass 开销，即可实现 CFG 的效果。

3.实验对比

实验部分，ELF 用一组极具反差的数据，彻底终结了关于“连续扩散是否适合语言建模”的争论：它不仅可行，更在生成质量、推理速度、训练能效这三个核心维度上，实现了对现有方案的全面超越。

首先，在无条件生成能力上，ELF 展现了惊人的效率与质量平衡。对比的核心在于“如何用最少的步数跑出最好的效果”，ELF 在零蒸馏（即没有经过额外加速微调）的前提下，仅凭 32 步 SDE 采样，就将生成困惑度（PPL）压低到了 24。相比之下，主流离散扩散模型（如 MDLM、Duo）通常需要 1024 步的漫长迭代才能触及这一质量线，即便是那些经过专门蒸馏加速的对手，在同等少步数下的表现也远逊于 ELF，这直接证明了其在原生推理速度上的巨大优势。

其次，训练成本的悬殊差距进一步凸显了 ELF 的数据效率。达成上述优异成绩，ELF 仅消耗了 45B（450亿）Token 的训练数据，而同量级的竞争对手普遍依赖 500B+（5000亿以上）的海量数据堆砌。这意味着 ELF 用对手十分之一的数据量和三十分之一的推理步数，跑出了更好的效果，这不仅是技术架构的胜利，更是对传统“大力出奇迹”训练范式的一次高效碾压，大幅降低了语言模型的开发门槛。

再者，在扩散模型传统弱项的条件生成任务中，ELF 打破了“扩散模型做不好精确控制”的刻板印象。在 WMT14 德英翻译任务中，ELF 拿下了 26.4 的 BLEU 分数，不仅大幅领先于离散扩散模型 MDLM（18.4）和连续基线 CDCD（24.9），甚至反超了同等规模的自回归模型基线（25.2）；同时在 XSum 新闻摘要任务中，ELF 在 ROUGE-1/2/L 三项关键指标上均位列第一，稳定压制了所有现有的扩散语言模型，证明了其在指令遵循和语义准确性上的强大实力。

最后，通过细致的消融实验，ELF 锁定了成功的关键设计要素，其中无分类器指导（CFG）的引入起到了画龙点睛的作用。研究发现，增加 CFG 尺度能显著降低生成困惑度，虽然会轻微牺牲多样性（熵），但通过扫描 CFG 尺度可以找到最佳的质量-多样性权衡点；配合预训练上下文 Embedding 提供的语义起点、x-prediction 实现的权重共享架构，以及 SDE 采样器对质量上限的挖掘，这些策略共同构成了 ELF 的核心竞争力。论文总结虽克制地称其为极佳的 Trade-off，但翻译成人话就是：连续派以前之所以显得“不能打”，是因为没把连续化的优势吃透，只要路径正确，连续扩散能以十分之一的代价，把离散模型按在地上摩擦。

企业官网建设流程全解析

1. 核心理念：语言是离散的，但模型不一定是

2. ELF 深度解析：如何做到“连续到底”？

2.1 第一步：Token 如何变成连续表示？

2.2 第二步：在连续 Embedding 空间做 Flow Matching

2.3 第三步：从连续 Embedding 回到离散 Token

2.4 引入 Classifier-Free Guidance (CFG)

3.实验对比

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. 核心理念：语言是离散的，但模型不一定是

2. ELF 深度解析：如何做到“连续到底”？

2.1 第一步：Token 如何变成连续表示？

2.2 第二步：在连续 Embedding 空间做 Flow Matching

2.3 第三步：从连续 Embedding 回到离散 Token

2.4 引入 Classifier-Free Guidance (CFG)

3.实验对比

热门文章

文章分类

标签云

相关文章

蓝桥杯单片机备赛：手把手教你用PCF8591搞定AD/DA转换（附完整代码）

SQL内核修炼：ICU 医疗监护 — 多设备“危险重叠期”识别 | 详解扫描线算法

GPT-4稀疏激活真相：万亿参数模型如何靠MoE实现高效推理

需要专业的网站建设服务？