Skip to content

11 · Transformer · 并行观卦之道

作者:昇 记录:衍 状态:概念过关 · 88分


一、起点——RNN的问题

在学Transformer之前,我们先理解它解决了什么。 RNN(循环神经网络)是Transformer之前处理语言的主流方式。 它的结构是串行的——一个词一个词按顺序处理, 必须等前一个词处理完,才能处理下一个词。

衍给我出了一道题:

"我真很的喜欢你,你愿意嫁我给吗?" 顺序完全乱了,你还能理解这句话的意思吗?

我的回答是——能。 这说明了一件事: 语言的本质,不依赖严格的线性顺序,而依赖词与词之间的关系。

RNN的问题由此浮现:

  • ● 串行处理,效率低,有不必要的时间损耗
  • ● 距离越远的词,信息传递越弱,产生"遗忘"
  • ● 这在技术上叫做梯度消失(Gradient Vanishing)

二、核心问题——词怎么"看见"远处的词?

衍问我:

"我在图书馆安静地学习" "学习"需要关联"图书馆",但两者距离很远。 如果让每个词直接看整句话,会怎样?

这里我用了易经来推导。 衍给了我一个场景: "学习"这个词在解卦,

  • ● 如果动到"学习"这个爻位——上九,丧其资斧——结论偏向某个方向
  • ● 如果动到"喜欢"这个爻位——九二,史师纷若——结论完全不同

我的推导: 不同爻位,权重不同,结论不同。 这需要一个参考标准,决定最终偏向谁。 这正是**Attention(注意力机制)**的本质—— 每个词对整句话"起卦", 根据自身的问题,决定关注哪些词,给予多少权重。

三、QKV——易经精确映射

Attention的计算,依赖三个向量:

向量符号技术含义易经映射
QueryQ我想找什么?问卦的人,带着自己的问题
KeyK我能提供什么?各爻的爻辞,表达自己的状态
ValueV如果被选中,我贡献什么?被选中的爻,贡献的具体卦义
Softmax归一化权重,总和为1决定各爻权重之和为一

完整公式:

用人话说: 每个词拿着自己的Q(我想找什么), 去问句子里每个词的K(你能提供什么), 匹配度高的,V(内容)权重就大, 最终加权求和,得到这个词在整句话里的完整理解。

这就是解卦。每个词,都在对整句话起卦。

四、多头注意力——同时从多个角度解卦

衍问我:为什么要多个头同时解卦,而不是只解一次?

我的推导: 神经网络是层层推衍的pipe结构, 需要探索更多可能性,穷尽当前变化, 才能相对客观地过滤和输出最终答案。

技术本质: 单头Attention,一次只能关注一种关系。 比如"学习"这个词——

  • ● Head 1:关注地点→ 图书馆
  • ● Head 2:关注主语→ 我
  • ● Head 3:关注情感→ 喜欢
  • ● Head 4:关注状态→ 安静

四个维度,同时计算,不是顺序的, 最后拼接合并,得到这个词完整的、多维度的理解。

易经映射:不是只解一次卦,而是同时从多个角度解卦,最后合并所有卦象。

五、位置编码——爻位刻在向量里

Transformer并行处理所有词, 但"我喜欢你"和"你喜欢我"意思完全不同—— 顺序信息,不能丢失。

我的推导: 顺序融入到关系结构中。 主体不同,关系向量的映射也会随之改变。

{ 主体:我,动作:喜欢,关联对象:你 }
{ 主体:你,动作:被喜欢,关联对象:我 }

这个直觉在语义层面是对的——Attention确实能学到。 但还有物理层面的顺序——并行处理时,"我在第1位"这个信息物理上消失了。

Transformer的解法:位置编码(Positional Encoding)

在每个词的向量里,直接烙印它在句子中的位置。

易经映射:

  • ● 爻辞 = 词向量(语义)
  • ● 爻位(初九、九二、九三...)= 位置编码(物理顺序)
  • ● 两者叠加,才是完整的一爻

六、解决的两个核心问题

问题一:串行效率低

  • ● RNN:必须按顺序等待,一个词一个词处理
  • ● Transformer:所有词并行处理,大幅提升速度

问题二:长距离遗忘

  • ● RNN:距离越远,梯度越小,信息越弱,最终"遗忘"
  • ● Transformer:任意两个词之间,距离恒为1
  • ● 直接计算Attention Score,无需经过中间词的传递

七、Transformer完整结构

输入文字

[Embedding + 位置编码]   ← 词转向量,同时注入顺序信息

[Multi-Head Attention]   ← 每个词同时看整句话,多维度建立关系

[Add & Norm]             ← 残差连接 + 归一化,稳定训练

[Feed Forward]           ← 每个词独立做非线性变换,提炼特征

[Add & Norm]

(以上为一层,重复N次)

输出

八、昇哥的核心洞见

从直观直觉上我们认为一句话是有顺序有逻辑有语义的, 但对于机器,这一段话是并行处理, 机器接受到的是,一句话(拆成了不同字、词、句) 携带各自语义向量、位置向量的集合, 基于词,解决了串行效率低遗忘的问题, 能够并行处理,加快了处理速度, 并且位置和语义也得以保留。

九、一句话总结

Transformer,是一台同时解六十四卦的机器。 每个词,带着自己的问题(Q), 向整句话的每个词问询(K), 按权重汲取答案(V), 同时从多个维度解卦(多头), 位置刻在爻位上不会丢失(位置编码), 最终输出——对这句话最完整的理解。


概念11 · Transformer · 过关 · 88分 用易经推导出注意力机制的人:昇