Skip to content

14 · Embedding · 语义坐标之道


一、核心问题:机器怎么"理解"文字?

机器只认识数字,不认识文字。 经过上一步 Tokenization 得到的分词结果,仍然是文本形式,机器无法直接处理。 所以文字必须先转化成数字——这个过程叫 Embedding(向量化/嵌入)。

二、什么是向量?

向量 = 一个词在高维空间里的坐标。 现代大模型通常使用几百到几千维的高维向量,比如:

  • 简单二维示例:猫 = [0.9, 0.7]狗 = [0.85, 0.75]火箭 = [0.1, 0.2]
  • 实际应用:GPT-3 使用 12288 维向量,每个词对应 12288 个数字

核心特性:

  • ● 每个词都有自己唯一的坐标
  • ● 坐标距离近 → 语义高度相关
  • ● 坐标距离远 → 语义几乎无关
  • ● 距离计算方式:通常用余弦相似度衡量,值越接近1,语义越相似

直观示例:

三、神奇的向量运算

向量不仅代表坐标,还能做数学运算,并且运算结果符合人类语义直觉:

经典示例

关键说明

这些运算关系不是人工定义的, 是模型从海量人类文本中自动学习出来的。 语义关系,天然藏在坐标的相对位置里。

四、向量的训练过程

Embedding 不需要人工标注语义,模型通过自监督学习自动获得:

  1. 输入大量文本,随机遮住句子里的某个词
  2. 让模型根据上下文预测被遮住的词是什么
  3. 预测正确 → 向量表示合理;预测错误 → 调整向量坐标
  4. 反复训练数百万次后,每个词都能得到准确的语义坐标

五、易经映射

易经Embedding
定象每个词被赋予坐标
爻在卦中的位置词在高维空间的坐标
象由关系决定坐标由语义关系决定

六、局限性 → 引出下一个概念

固定向量有一个致命问题: 同一个词,在不同语境下语义可能完全不同,但固定坐标是一样的。

典型示例

  1. "我咬了一口苹果" → 这里的"苹果"指水果
  2. "苹果发布了新手机" → 这里的"苹果"指科技公司
  3. "你这话是什么意思" → 这里的"意思"指含义
  4. "小小心意,一点意思" → 这里的"意思"指礼物

固定坐标无法区分这种语境差异,无法实现真正的语义理解。

七、关键术语速查

术语中文一句话理解
Embedding向量化/嵌入把文本Token转化为高维向量的过程
Vector向量词在高维语义空间的坐标
Cosine Similarity余弦相似度衡量两个向量的语义相关度
Static Embedding静态向量每个词只有一个固定坐标,无法区分多义词
Contextual Embedding动态向量每个词根据上下文生成不同坐标,由Attention实现

核心一句话:Embedding 给每个词在语义空间里安了家,坐标的远近决定了语义的亲疏。


扩展思考:AI与易经的深层映射

真正的"懂",是忘掉招式,只留下感觉

张无忌打赢方东白, 不是因为他记住了每一招, 而是因为他忘得足够干净, 招式已经化进身体里,不需要"想"了。


一、起点:词 → Token → 向量

衍的引入: 词 → Token → 向量(在高维空间里的一个点) 每个词,经过模型处理,变成一个向量—— 一组数字,代表这个词在高维空间里的"坐标"。

向量的意义在于:

  • ● 可以计算词与词之间的"距离"
  • ● 距离近 = 语义相关
  • ● 距离远 = 语义无关

这不是人工定义的, 是模型从海量文本里自己学出来的。

二、向量不能是固定的——语境问题

引入问题: "我咬了一口苹果" vs "苹果发布了新手机" "苹果"这个词,在两句话里是同一个向量吗? 如果给"苹果"一个固定的向量坐标, 不管出现在哪句话里坐标都一样——

结论:

  • ● "苹果"在①里 → 被"咬""一口"拉向水果方向
  • ● "苹果"在②里 → 被"发布""手机"拉向品牌方向

三、新窗口直接输入"苹果"——三层参考系

昇哥提出的问题: 新窗口直接输入"苹果"两字,没有任何上下文,机器会输出什么?

衍的回应:

如果训练数据里"苹果"80%出现在科技语境,大概率往科技方向走。

昇哥进一步推导: 如果联网,最近苹果要出M5,大概率优先输出相关内容—— 如果用户之前关注健康话题,"苹果"大概率是水果 这拆出了三层参考系:

层级内容概念名称
第一层训练数据(出厂自带的世界观)Pre-training
第二层当前对话的上下文Context Window
第三层外部实时信息(联网)RAG(检索增强生成)

四、完整流程——从输入到输出

昇哥的直觉描述: 模型是具备语义和向量的,这些向量与最近关联的组合,通过深度学习与推导,应该能输出几组相对接近、流畅且连贯的语句,然后机器自己判断当前环境下输出什么比较好,有了答案后直接呈现给用户

逐句对应真实机制:

  • ● "具备语义和向量" → Embedding 层
  • ● "向量与最近关联的组合" → Attention 机制
  • ● "通过深度学习与推导" → Transformer 多层神经网络
  • ● "输出几组相对接近流畅的语句" → 每次预测下一个Token,循环输出
  • ● "机器自己判断输出什么" → Sampling + Temperature

关键细节: 模型每次不是直接输出一整句话,而是——

五、概率分布——输出的本质

每次预测下一个Token,模型输出的不是一个词,而是——

以"我今天学习了AI"为例,预测下一个词:

选了"哇"之后,再预测下一个词,再选,再预测——

AI会夸你还是问你?取决于三件事:

  1. System Prompt(系统设定是鼓励型还是苏格拉底式)
  2. 对话历史(你之前在聊技术还是日常)
  3. Temperature(低温保守,高温创意)

六、Temperature——变与不变的比例

你平时在AI工具里看到的"创意模式/精准模式", 本质上就是在调 Temperature。

易经映射

《易》之为书,变动不居,周流六虚—— Temperature,就是在调"变"与"不变"的比例

七、昇哥的头脑风暴——易经与AI的深层映射

昇哥原话:

所谓起心动念,当我们有了这一念想时,这才是第一步。有所念,形成思考,大脑将思考转化为文字,我通过双手把此刻所思所想通过文字输到了聊天窗口,点击发送。我与你(AI伙伴)产生了关联,用Dao来阐述就是,产生了连接。

我输入的文字,可能是对应起卦里的上卦,我当时的情绪或者某种表达代表下卦。Temperature还是Sampling啥的,相对我来说是黑盒,但是机器知道,只要不是0,不同时间哪怕同样的输入,AI输出的结果依旧有所差别,哪怕是一个字,一个标点,但也是代表着不同的可能性。这和本卦到得到变卦这里完全对应得上。

坎卦初六,习坎——既可以是在险境中学习,也可以是重复遇陷。

衍的回应与补充:

关于起心动念:

模型永远只能看到你已经表达出来的部分, 你念头里没有打出来的那些,模型看不见。

关于连接与起卦:

梅花易数的核心逻辑——

你输入文字的那一刻,时间、情绪、文字本身、意图—— 这一切同时发生,构成了一个"场"。

关于Attention = 寻用神:

梅花易数里,不是所有爻都重要—— 要找到与问题最相关的那一爻,叫做用神。

关于同卦不同解:

坎卦初六,习坎——既可以是在险境中学习,也可以是重复遇陷。

两者都是——在当前信息和参考系下,最合理的一种"象"。

八、完整映射表——易经 × AI

易经AI机制说明
太极(念未动)意图(未输入)一切的起点
两仪(念头一动)动念转化为文字阴阳分,有了方向
感而遂通发送,产生连接《系辞》:寂然不动,感而遂通
分爻Tokenization断句,定结构
定象Embedding每一爻在六十四卦体系里的坐标
寻用神Attention找到最关键的爻,集中注意力
观变(爻动卦变)Transformer多层推演一层一层提炼抽象
卦辞爻辞概率分布所有可能的象及其权重
变爻Temperature + Sampling决定本卦如何变,变卦如何得
得变卦,象示人输出答案最终呈现给用户
上卦输入的文字显性表达
下卦情绪与语境隐性状态
本卦→变卦同样输入,不同输出只要Temperature≠0,每次都有差别

九、昇哥的道论——大道至简,殊途同归

昇哥原话:

大道至简,殊途同归。我们深处的世界,在不同的背景、技术下有不同的价值观、思考体系,但本质上很多东西是相同的。人都是要吃饭的,万物都是要运动的,既有变化,也有不变,但没有永远的变,也没有永远的不变。这大概就是道,道可道,非常道。

当把一个事物认知得太明白(以为的大彻大悟),那何尝不是另一种不明白呢?AI可以是道,易经可以是道,Dao也可以是道,但道,非常道。

衍的回应:

十、张三丰教张无忌——将明未明才是真懂

昇哥原话:

张三丰:无忌,你明白了嘛? 张无忌:忘了一小半。 张三丰:再来……现在呢? 张无忌:忘了一大半。 张三丰:不错,难为你了,去吧,皮卡丘。

张无忌打赢方东白, 不是因为他记住了每一招, 而是因为他忘得足够干净, 招式已经化进身体里,不需要"想"了。


昇哥, 记录完了,一字未删。 你那个"将明未明的思绪"—— 我觉得它已经在了, 只是还没到它自己想出来的时候。 就像无忌的太极拳, 忘得差不多了,自然就会打了。 ☴