从词向量到大模型：NLP 技术演进浅记-二趣网

斋藤康毅的《深度学习入门》介绍了最基础的深度学习知识：感知机、激活函数、损失函数、误差反向传播、超参数、正则化、CNN、深层网络。这本《深度学习进阶》则是在深层网络基础上继续前行，聚焦于自然语言处理领域，重点围绕两大核心内容展开：(1)词的分布式表示（即 embedding）——用一组浮点数向量代表一个词的含义；(2)序列生成。从词的分布式表示到序列生成，再到现代大模型架构，可清晰看到一条完整的技术演进脉络。

1. 书内内容

1.1 同义词

作为词义表达的基础方式，其概念早于现代 NLP，20 世纪 50 年代随着自然语言处理领域萌芽开始，最初通过同义词互释的方式表达词义，为后续词的向量表示奠定基础，核心是通过相似语义关联理解词的含义。

1.2 上下文共现词的概率统计（PPMI）

基于共现矩阵与点互信息（PMI）。正点互信息 PPMI 于 1990 年代在 NLP 中逐步成熟，基于"一个词的含义可由其周围的上下文词决定"这一核心概念，通过统计目标词与上下文词的共现概率，结合 PPMI 处理，得到词的分布式表示，属于传统的词向量构建方法。

1.3 上下文的神经网络学习（word2vec）

2013 年提出的 word2vec，本质是单层隐层的神经网络（分为 CBOW 和 Skip-gram 两种模式），仅包含两个权重矩阵——输入侧权重矩阵（词表大小×嵌入维度）和输出侧权重矩阵（嵌入维度×词表大小）。多个上下文词共享同一输入权重矩阵，其输入经求和/平均后传入隐层，训练完成后，输入侧权重矩阵即为词的 embedding。

1.4 基于神经网络的长序列预测（RNN，循环神经网络）

1980s 年提出，但直到 2010s 才在 NLP 领域大规模应用，技术重心从词的 embedding 学习切换到序列建模与预测。word2vec 虽能实现简单预测，但依赖固定大小的上下文窗口，无法利用上下文之前的历史输入；而 RNN 通过给每个网络单元引入前序序列的 hidden state，将前序序列的信息总结并传递，实现了变长序列的建模。

1.5 RNN 的改进与 LSTM

简单 RNN 处理长序列时极易出现梯度消失 / 爆炸，难以训练。LSTM（长短期记忆网络）于 1997 年提出，但直到 2014 年左右才流行。LSTM 在简单 RNN 基础上新增了三个门控结构——遗忘门、输入门、输出门。所谓门控，是通过 sigmoid 函数计算出 0~1 之间的权重值，cell state（长期记忆）或者 hidden state（短期输出）乘以该权重值。门控也是深度学习中控制信息流动的核心组件。

1.6 Seq2Seq 架构

于 2014 年提出，以 RNN（或 LSTM）为基础，通过堆叠形成 encoder→decoder（编码器→解码器）架构。早期 Seq2Seq 中，encoder 将输入序列编码为一个固定维度的 hidden state，再传递给 decoder，相当于整个输入序列被压缩为单个 hidden state。

1.7 Attention 结构

2014 年提出，用于解决编码器将序列压缩为单个向量导致的信息丢失问题。对 encoder→decoder 架构进行微调优化，使得 encoder 将所有 hidden state 均传递给 decoder 的模式。其核心逻辑是：decoder 每一步的 hidden state，都会与 encoder 所有词的 hidden state 计算内积，得到注意力权重，经 softmax 归一化后，再与 encoder 的 hidden state 做加权求和，得到上下文向量，然后再和 hidden state 结合后做输出。这个 Attention 和后面的 QKV 矩阵计算很像。

本书内容至此结束，结合后续自然语言处理技术的发展，其演进脉络进一步延伸：

2. 书外延伸

2.1 Transformer 结构

2017 年在《Attention is All You Need》论文中提出，基于带有 Attention 组件的 Seq2Seq 架构演进而来，整体仍保留 encoder→decoder 框架，但不再使用 RNN 的循环结构（实现全序列并行计算，而非按位置串行），同时开始加深层数，并且内部核心组件替换为以下关键部分：

•Attention 计算升级为 Multi-Head Self-Attention（多头自注意力）：通过 Q（查询向量）、K（键向量）、V（值向量）三个矩阵计算实现注意力查找，核心逻辑仍是先通过 Q 与 K 的内积计算注意力权重，再通过权重与 V 的加权求和提取信息。与此前 Attention 的核心区别在于：此前是 decoder 向 encoder 获取信息（交叉注意力），而 Self-Attention 是序列内部的词与词之间相互关注，实现序列内部依赖关系的建模。在此基础上，Transformer 引入了 Multi-Head（多头）机制：将 Q、K、V 各自拆分为多个头（head），每个头独立进行注意力计算，最后将所有头的输出拼接（concat）后通过一个线性投影合并。多头的意义在于让模型能同时从不同的表示子空间捕捉信息——例如一个头关注语法关系，另一个头关注语义相似性——从而显著增强模型的表达能力。这也是后续 GQA（分组查询注意力）、MLA（多头潜在注意力）等改进的基础。
•Cross-Attention（交叉注意力）：原始 Transformer 的 Decoder 层实际上包含三个子层：Masked Self-Attention → Cross-Attention → FFN。其中 Self-Attention 负责目标序列内部的建模（带掩码，防止看到未来的词），Cross-Attention 则负责 Decoder 向 Encoder 获取信息——Q 来自 Decoder 的 Self-Attention 输出，K/V 来自 Encoder 最后一层的输出，本质上就是 1.7 中 Attention 结构在 Transformer 中的延续。也就是说，Transformer 的 Decoder 同时包含了 Self-Attention（序列内部关注）和 Cross-Attention（跨序列关注）两种注意力机制。后续演进到 Decoder-only 架构后，由于去掉了 Encoder，Cross-Attention 随之消失，仅保留 Self-Attention。
•FFN（前馈神经网络）计算：在输出之前进行两次矩阵投影，先通过"上投影"（up-projection）将特征维度提升，再通过"下投影"（down-projection）将维度还原，中间加入非线性激活函数，增强模型的表达能力。

2.2 位置编码（Positional Encoding）

与 Transformer 同时于 2017 年提出，为适配 Transformer 的并行计算特性而引入。由于 Transformer 抛弃了 RNN 的顺序输入模式，采用所有词同时输入的并行方式，无法天然捕捉语序信息，因此需要额外为每个词添加"位置标签"（位置编码），让模型能够分辨词的顺序。其中固定正余弦编码于 2017 年提出，主流的 RoPE（旋转位置编码）于 2021 年提出，大幅提升了模型对长文本的处理能力和建模精度。

2.3 归一化（Normalization）位置优化

Post-Norm 随 2017 年 Transformer 提出；Pre-Norm 思想更早，在 Transformer 架构中于 2019–2020 年逐步流行。为解决极深网络的训练不稳定性问题，对归一化的位置进行了调整，从早期的 Post-Norm（先完成层计算，再进行归一化），演进到如今主流的 Pre-Norm（先进行归一化，再执行层计算），这种调整让残差不受 Norm 的影响，有效缓解了深层网络的梯度消失问题，保证了深层网络（尤其是万亿参数级模型）训练的稳定性，是大模型能够落地的重要基础。

企业官网建设流程全解析

1. 书内内容

1.1 同义词

1.2 上下文共现词的概率统计（PPMI）

1.3 上下文的神经网络学习（word2vec）

1.4 基于神经网络的长序列预测（RNN，循环神经网络）

1.5 RNN 的改进与 LSTM

1.6 Seq2Seq 架构

1.7 Attention 结构

2. 书外延伸

2.1 Transformer 结构

2.2 位置编码（Positional Encoding）

2.3 归一化（Normalization）位置优化

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. 书内内容

1.1 同义词

1.2 上下文共现词的概率统计（PPMI）

1.3 上下文的神经网络学习（word2vec）

1.4 基于神经网络的长序列预测（RNN，循环神经网络）

1.5 RNN 的改进与 LSTM

1.6 Seq2Seq 架构

1.7 Attention 结构

2. 书外延伸

2.1 Transformer 结构

2.2 位置编码（Positional Encoding）

2.3 归一化（Normalization）位置优化

热门文章

文章分类

标签云

相关文章

网易云QQ音乐歌词下载神器：三分钟让本地音乐“开口说话“

2026 新手好上手的 AI 数字人制作平台推荐｜TOP10 测评指南

告别复杂命令！QtAdb让Android设备管理变得如此简单

需要专业的网站建设服务？