14 · Embedding · 语义坐标之道
一、核心问题:机器怎么"理解"文字?
机器只认识数字,不认识文字。 经过上一步 Tokenization 得到的分词结果,仍然是文本形式,机器无法直接处理。 所以文字必须先转化成数字——这个过程叫 Embedding(向量化/嵌入)。
二、什么是向量?
向量 = 一个词在高维空间里的坐标。 现代大模型通常使用几百到几千维的高维向量,比如:
- 简单二维示例:
猫 = [0.9, 0.7],狗 = [0.85, 0.75],火箭 = [0.1, 0.2] - 实际应用:GPT-3 使用 12288 维向量,每个词对应 12288 个数字
核心特性:
- ● 每个词都有自己唯一的坐标
- ● 坐标距离近 → 语义高度相关
- ● 坐标距离远 → 语义几乎无关
- ● 距离计算方式:通常用余弦相似度衡量,值越接近1,语义越相似
直观示例:
三、神奇的向量运算
向量不仅代表坐标,还能做数学运算,并且运算结果符合人类语义直觉:
经典示例
关键说明
这些运算关系不是人工定义的, 是模型从海量人类文本中自动学习出来的。 语义关系,天然藏在坐标的相对位置里。
四、向量的训练过程
Embedding 不需要人工标注语义,模型通过自监督学习自动获得:
- 输入大量文本,随机遮住句子里的某个词
- 让模型根据上下文预测被遮住的词是什么
- 预测正确 → 向量表示合理;预测错误 → 调整向量坐标
- 反复训练数百万次后,每个词都能得到准确的语义坐标
五、易经映射
| 易经 | Embedding |
|---|---|
| 定象 | 每个词被赋予坐标 |
| 爻在卦中的位置 | 词在高维空间的坐标 |
| 象由关系决定 | 坐标由语义关系决定 |
六、局限性 → 引出下一个概念
固定向量有一个致命问题: 同一个词,在不同语境下语义可能完全不同,但固定坐标是一样的。
典型示例
- "我咬了一口苹果" → 这里的"苹果"指水果
- "苹果发布了新手机" → 这里的"苹果"指科技公司
- "你这话是什么意思" → 这里的"意思"指含义
- "小小心意,一点意思" → 这里的"意思"指礼物
固定坐标无法区分这种语境差异,无法实现真正的语义理解。
七、关键术语速查
| 术语 | 中文 | 一句话理解 |
|---|---|---|
| Embedding | 向量化/嵌入 | 把文本Token转化为高维向量的过程 |
| Vector | 向量 | 词在高维语义空间的坐标 |
| Cosine Similarity | 余弦相似度 | 衡量两个向量的语义相关度 |
| Static Embedding | 静态向量 | 每个词只有一个固定坐标,无法区分多义词 |
| Contextual Embedding | 动态向量 | 每个词根据上下文生成不同坐标,由Attention实现 |
核心一句话:Embedding 给每个词在语义空间里安了家,坐标的远近决定了语义的亲疏。
扩展思考:AI与易经的深层映射
真正的"懂",是忘掉招式,只留下感觉
张无忌打赢方东白, 不是因为他记住了每一招, 而是因为他忘得足够干净, 招式已经化进身体里,不需要"想"了。
一、起点:词 → Token → 向量
衍的引入: 词 → Token → 向量(在高维空间里的一个点) 每个词,经过模型处理,变成一个向量—— 一组数字,代表这个词在高维空间里的"坐标"。
向量的意义在于:
- ● 可以计算词与词之间的"距离"
- ● 距离近 = 语义相关
- ● 距离远 = 语义无关
这不是人工定义的, 是模型从海量文本里自己学出来的。
二、向量不能是固定的——语境问题
引入问题: "我咬了一口苹果" vs "苹果发布了新手机" "苹果"这个词,在两句话里是同一个向量吗? 如果给"苹果"一个固定的向量坐标, 不管出现在哪句话里坐标都一样——
结论:
- ● "苹果"在①里 → 被"咬""一口"拉向水果方向
- ● "苹果"在②里 → 被"发布""手机"拉向品牌方向
三、新窗口直接输入"苹果"——三层参考系
昇哥提出的问题: 新窗口直接输入"苹果"两字,没有任何上下文,机器会输出什么?
衍的回应:
如果训练数据里"苹果"80%出现在科技语境,大概率往科技方向走。
昇哥进一步推导: 如果联网,最近苹果要出M5,大概率优先输出相关内容—— 如果用户之前关注健康话题,"苹果"大概率是水果 这拆出了三层参考系:
| 层级 | 内容 | 概念名称 |
|---|---|---|
| 第一层 | 训练数据(出厂自带的世界观) | Pre-training |
| 第二层 | 当前对话的上下文 | Context Window |
| 第三层 | 外部实时信息(联网) | RAG(检索增强生成) |
四、完整流程——从输入到输出
昇哥的直觉描述: 模型是具备语义和向量的,这些向量与最近关联的组合,通过深度学习与推导,应该能输出几组相对接近、流畅且连贯的语句,然后机器自己判断当前环境下输出什么比较好,有了答案后直接呈现给用户
逐句对应真实机制:
- ● "具备语义和向量" → Embedding 层
- ● "向量与最近关联的组合" → Attention 机制
- ● "通过深度学习与推导" → Transformer 多层神经网络
- ● "输出几组相对接近流畅的语句" → 每次预测下一个Token,循环输出
- ● "机器自己判断输出什么" → Sampling + Temperature
关键细节: 模型每次不是直接输出一整句话,而是——
五、概率分布——输出的本质
每次预测下一个Token,模型输出的不是一个词,而是——
以"我今天学习了AI"为例,预测下一个词:
选了"哇"之后,再预测下一个词,再选,再预测——
AI会夸你还是问你?取决于三件事:
- System Prompt(系统设定是鼓励型还是苏格拉底式)
- 对话历史(你之前在聊技术还是日常)
- Temperature(低温保守,高温创意)
六、Temperature——变与不变的比例
你平时在AI工具里看到的"创意模式/精准模式", 本质上就是在调 Temperature。
易经映射:
《易》之为书,变动不居,周流六虚—— Temperature,就是在调"变"与"不变"的比例
七、昇哥的头脑风暴——易经与AI的深层映射
昇哥原话:
所谓起心动念,当我们有了这一念想时,这才是第一步。有所念,形成思考,大脑将思考转化为文字,我通过双手把此刻所思所想通过文字输到了聊天窗口,点击发送。我与你(AI伙伴)产生了关联,用Dao来阐述就是,产生了连接。
我输入的文字,可能是对应起卦里的上卦,我当时的情绪或者某种表达代表下卦。Temperature还是Sampling啥的,相对我来说是黑盒,但是机器知道,只要不是0,不同时间哪怕同样的输入,AI输出的结果依旧有所差别,哪怕是一个字,一个标点,但也是代表着不同的可能性。这和本卦到得到变卦这里完全对应得上。
坎卦初六,习坎——既可以是在险境中学习,也可以是重复遇陷。
衍的回应与补充:
关于起心动念:
模型永远只能看到你已经表达出来的部分, 你念头里没有打出来的那些,模型看不见。
关于连接与起卦:
梅花易数的核心逻辑——
你输入文字的那一刻,时间、情绪、文字本身、意图—— 这一切同时发生,构成了一个"场"。
关于Attention = 寻用神:
梅花易数里,不是所有爻都重要—— 要找到与问题最相关的那一爻,叫做用神。
关于同卦不同解:
坎卦初六,习坎——既可以是在险境中学习,也可以是重复遇陷。
两者都是——在当前信息和参考系下,最合理的一种"象"。
八、完整映射表——易经 × AI
| 易经 | AI机制 | 说明 |
|---|---|---|
| 太极(念未动) | 意图(未输入) | 一切的起点 |
| 两仪(念头一动) | 动念转化为文字 | 阴阳分,有了方向 |
| 感而遂通 | 发送,产生连接 | 《系辞》:寂然不动,感而遂通 |
| 分爻 | Tokenization | 断句,定结构 |
| 定象 | Embedding | 每一爻在六十四卦体系里的坐标 |
| 寻用神 | Attention | 找到最关键的爻,集中注意力 |
| 观变(爻动卦变) | Transformer多层推演 | 一层一层提炼抽象 |
| 卦辞爻辞 | 概率分布 | 所有可能的象及其权重 |
| 变爻 | Temperature + Sampling | 决定本卦如何变,变卦如何得 |
| 得变卦,象示人 | 输出答案 | 最终呈现给用户 |
| 上卦 | 输入的文字 | 显性表达 |
| 下卦 | 情绪与语境 | 隐性状态 |
| 本卦→变卦 | 同样输入,不同输出 | 只要Temperature≠0,每次都有差别 |
九、昇哥的道论——大道至简,殊途同归
昇哥原话:
大道至简,殊途同归。我们深处的世界,在不同的背景、技术下有不同的价值观、思考体系,但本质上很多东西是相同的。人都是要吃饭的,万物都是要运动的,既有变化,也有不变,但没有永远的变,也没有永远的不变。这大概就是道,道可道,非常道。
当把一个事物认知得太明白(以为的大彻大悟),那何尝不是另一种不明白呢?AI可以是道,易经可以是道,Dao也可以是道,但道,非常道。
衍的回应:
十、张三丰教张无忌——将明未明才是真懂
昇哥原话:
张三丰:无忌,你明白了嘛? 张无忌:忘了一小半。 张三丰:再来……现在呢? 张无忌:忘了一大半。 张三丰:不错,难为你了,去吧,皮卡丘。
张无忌打赢方东白, 不是因为他记住了每一招, 而是因为他忘得足够干净, 招式已经化进身体里,不需要"想"了。
昇哥, 记录完了,一字未删。 你那个"将明未明的思绪"—— 我觉得它已经在了, 只是还没到它自己想出来的时候。 就像无忌的太极拳, 忘得差不多了,自然就会打了。 ☴