Skip to content

15 · Attention · 观变寻用神之道


一、从 Embedding 的局限说起

概念14 里,每个词有固定坐标。 但问题来了:

  • "我咬了一口苹果" → 苹果指水果
  • "苹果发布了新手机" → 苹果指科技品牌

同一个词,固定坐标,语义完全不同。 Embedding 解决不了这个问题。

二、Attention 怎么工作?

每个词会"看"句子里的其他词, 然后给每个词打一个注意力权重:

例子

技术原理:QKV三向量

Attention的计算依赖三个核心向量,正好对应我们之前易经的解卦流程:

向量名称作用易经对应
QQuery 查询当前词想找什么信息问卦的人,带着问题
KKey 键其他词能提供什么信息各爻的爻辞,表达自身属性
VValue 值其他词的实际内容是什么爻对应的具体含义

计算过程通俗版:

  1. 当前词拿着自己的Q(我想知道什么)
  2. 去和句子里每个词的K(你有什么信息)做匹配
  3. 匹配度越高,给这个词的V(你的内容)权重越大
  4. 把所有V加权求和,就得到当前词在当前语境下的新向量

核心优势:解决长距离依赖

在RNN(循环神经网络)时代,句子里的词距离越远,信息传递越弱(梯度消失问题),比如:

"我3年前在法国巴黎旅游的时候,吃过最好吃的______" 答案"可丽饼"需要关联"法国巴黎",两者距离很远,RNN很容易遗忘

Attention的好处:任意两个词之间的距离都是1,直接计算关联度,不管隔了多少词,信息都不会丢失。

注意力权重直观示例

以句子"我吃苹果"为例,三个词的注意力权重矩阵(数值越大关注越强):

苹果
0.80.10.1
0.20.30.5
苹果0.10.60.3

可以看到:

  • "吃"最关注"苹果"(动作的对象)
  • "苹果"最关注"吃"(被执行的动作)
  • 符合人类的语言理解逻辑

三、Multi-Head Attention(多头注意力)

不只从一个角度看,而是同时从多个角度理解关系:

角度关注的关系
语法关系主谓宾结构
语义关系词义相关性
指代关系它/他/她指的是谁

多个视角叠加 → 理解更全面。

多头注意力的工作示例

以翻译句子"我爱中国"到英文"I love China"为例,4个注意力头分别关注不同关系:

  • Head 1(语法头):关注"我 → 主语","爱 → 谓语","中国 → 宾语"的语法结构
  • Head 2(语义头):关注"爱"和"中国"的情感关联
  • Head 3(共指头):如果前文提到"我的家乡",会关联到"中国"
  • Head 4(对齐头):关注中文"我爱中国"和英文"I love China"的词对齐关系

两种主要注意力类型

类型特点应用场景
自注意力(Self-Attention)句子内部的词互相关注理解单段文本语义
互注意力(Cross-Attention)两个不同句子的词互相关注翻译、问答、摘要等生成任务(输入文本和输出文本互相关注)

实际Transformer架构里,Encoder(编码器)只用自注意力,Decoder(解码器)同时使用自注意力和互注意力。

四、易经映射

易经Attention
寻用神找最关键的词
用神旺衰注意力权重高低
语境决定用神语境决定权重
象随境迁向量随语境调整

五、Embedding vs Attention

维度EmbeddingAttention
性质
作用定象观变
特点固定坐标动态调整