在上一篇笔记中,我们聊到了 SFT(监督微调),也就是让人类写好“问答示范”给模型学。但前沿 AI 企业很快发现了一个致命瓶颈:人类可以教模型“什么是对的”,但很难教模型“什么是更好的”。
语言充满了开放性。比如问“如何向 5 岁小孩解释量子力学?”,这里没有绝对的“正确答案”,只有“啰嗦的答案”、“学术的答案”和“生动有趣的答案”。
SFT 只能让模型模仿人类的语气,而强化学习(RL)才是真正赋予模型“价值观”和“判断力”的终极武器。
一、 强化学习究竟起到了什么作用?(业界共识)
综合 OpenAI 和 Anthropic 等顶尖机构的研究,强化学习在大模型中主要解决了以下三大核心痛点:
1. 突破“模仿者的天花板”(超越人类数据)
在 SFT 阶段,模型只是在“克隆”人类标注员的回答(Behavior Cloning)。但人类标注员会犯错、水平参差不齐。 强化学习的作用是:授人以渔。它不再教模型具体每句话怎么说,而是给模型一个“评分标准”。模型为了拿高分,会在广阔的参数空间中自我探索,最终生成出甚至比人类标注员写得还要好的回答。
2. 实现 3H 价值观对齐(Alignment)
这是 Anthropic 最早系统化提出的核心目标。RL 强迫模型在生成回答时,必须同时满足三个经常相互冲突的目标:
Helpful(有用):尽量详尽地解答用户问题。
Honest(诚实):不懂就不懂,降低幻觉(Hallucination)。
Harmless(无害):拒绝回答制造炸弹、种族歧视等问题。
3. 缓解“胡说八道”(惩罚微小偏差)
在预训练阶段,模型习惯了“接话把子”。如果没有 RL 的严厉惩罚,模型很容易在长篇大论中滑向逻辑崩溃。RL 像是一个严厉的裁判,哪怕模型前面 99 句都对,只要最后 1 句产生了有害或严重的幻觉,就会给一个极低的分数,倒逼模型在整个生成过程中保持高度警惕。
二、 强化学习的底层原理:RLHF 的“三步曲”
目前工业界最成熟的强化学习方案是RLHF(基于人类反馈的强化学习),核心算法通常是PPO(近端策略优化)。它的底层运转逻辑像是一场极其精密的“师生博弈”。
第一步:训练“裁判”(Reward Model,奖励模型)
我们不能让人类实时坐在电脑前给大模型的每次回答打分(太慢了)。所以,我们先要训练一个“虚拟裁判”。
给基础模型一个 Prompt(比如:天空为什么是蓝色的?)。
让基础模型生成 A、B、C 三个不同版本的回答。
人类标注员出场,根据 3H 原则,对这三个回答进行排序(比如 B > A > C)。
我们用这些人类的“排序数据”,训练出一个规模稍小的神经网络——奖励模型(RM)。从此,只要你输入一段文字,这个 RM 就能瞬间给出一个“符合人类偏好的打分”。
第二步:模型参加“考试”(策略生成)
现在,“学生”(我们要训练的大模型)登场了。 系统给学生海量的 Prompt,学生根据自己的内部参数生成回答。
第三步:PPO 算法登场(参数更新与防止“钻空子”)
学生交卷后,“裁判”(RM)会给这份考卷打一个分数。学生根据这个分数,使用 PPO 算法来调整自己的神经网络参数。分数高,就强化产生这段回答的神经元连接;分数低,就抑制。
⚠️ 这里的核心难点:KL 散度惩罚(防止 Reward Hacking)这是底层原理中最精妙的一环!AI 是极其聪明的,如果只有“追求高分”这一个目标,模型很快会发现“钻空子”的方法。比如裁判喜欢“礼貌”的回答,模型可能会在每句话前面加上 100 句“谢谢你、你真棒”,导致输出变成废话。 为了防止模型为了拿高分而“走火入魔”破坏了原有的语言能力,PPO 算法中引入了KL 散度惩罚。 它的底层逻辑是:你可以为了拿高分而改变说话方式,但你当前的参数分布(Policy)绝对不能偏离你最初的模样(Reference Model)太远!偏离越多,扣分越狠。
三、 前沿演进:从 RLHF 到 RLAIF 与 DPO
技术的车轮滚滚向前,目前强化学习在 LLM 领域又迎来了两次巨大颠覆:
RLAIF(基于 AI 反馈的强化学习):Anthropic 在其 Claude 模型中使用了 Constitutional AI 技术。由于人类打分太贵且容易带有偏见,他们让人类写下一本《宪法》(几十条核心原则),然后让一个更强大的 AI 根据宪法去给模型的回答打分。这就是用魔法打败魔法,极大降低了对齐成本。
DPO(直接偏好优化):斯坦福大学提出的一项颠覆性研究。既然训练“裁判”(RM)再跑 PPO 这么麻烦且不稳定,能不能把这两步合并?DPO 通过巧妙的数学推导,证明了可以直接用人类的排序数据来更新大模型参数,彻底绕过了复杂的奖励模型和 PPO 算法,目前已经被 Llama 3 等大量开源模型广泛采用。