16 · 概率分布 · 卦象生成之道

一、AI 怎么生成文字？

不是一次输出整句话，而是：

二、什么是概率分布？

每次预测，模型会对所有词打出一个概率：

候选词	概率
"哇"	22%
"你"	18%
"太"	15%
"怎"	8%
其余几万个词	瓜分剩余

三、影响概率分布的三件事

四、自回归循环

预测第1个词 → 加入上下文 → 预测第2个词 → 加入上下文 → 预测第3个词 → …… → 直到输出结束符

每一步都是一次重新计算概率分布。

五、易经映射

易经	概率分布
起卦	输入 Prompt
所有可能的象	所有词的概率分布
旺象	高概率词
弱象	低概率词
变爻落点	最终选出的词

六、重要推论

同样的输入，输出可能不同。不是查字典，是在掷卦—— 有随机性，有概率，有变数。

补充学习：常用采样策略

模型得到概率分布后，如何选出最终要输出的词，有几种常见策略：

贪心采样：每次直接选概率最高的词，输出稳定但容易重复、呆板
随机采样：完全按概率分布随机选，输出多样化但可能不通顺
Top-K 采样：只从概率最高的K个词里随机选，平衡多样性和通顺度
Nucleus 采样（Top-p）：只从概率总和达到p的最小词集里选，效果最好，是现在大模型最常用的采样方式

扩展理解1：概率分布的直观可视化

我们可以把概率分布想象成一个山峰图：

尖锐分布：少数词概率极高，像一座孤峰，其他词概率几乎为0
平坦分布：很多词概率相近，像一片丘陵，没有特别突出的高峰
原始分布：模型学习到的自然分布，有高峰也有低坡

以输入"我今天想去"为例，常见候选词概率：

候选词	概率	分布类型
公园	35%	高峰词
吃饭	28%	次高峰词
看电影	15%	中等概率词
图书馆	10%	低概率词
火星	0.01%	长尾词

扩展理解2：概率分布的动态变化

概率分布不是固定的，会随着上下文动态变化：

上下文为空时：输入"苹果"，"手机"概率30%，"水果"概率25%，"公司"概率20%
上下文为"我吃了一个"时：输入"苹果"，"水果"概率90%，其他词概率极低
上下文为"我要买一台"时：输入"苹果"，"手机"概率95%，其他词概率极低

扩展理解3：和传统程序的本质区别

类型	逻辑	输出特点
传统程序	确定性规则（if-else）	相同输入永远得到相同输出
大语言模型	概率分布采样	相同输入可能得到不同输出

这就是为什么你问AI同一个问题，每次回答可能不一样——它不是在查数据库，而是每次都在根据概率分布重新"掷骰子"。

扩展理解4：常见误区澄清

❌ 误区：AI知道它在说什么 ✅ 真相：AI完全不知道词的含义，它只是根据训练数据学到的统计规律，计算每个词出现的概率，然后采样输出。所谓的"理解"只是人类的错觉。

❌ 误区：高概率的答案就是"正确"的 ✅ 真相：高概率只代表这个词在训练数据里出现的统计频率高，不代表它是事实正确的。这就是大模型会"幻觉"的根本原因——概率最高的答案不一定是对的。

16 · 概率分布 · 卦象生成之道 ​

一、AI 怎么生成文字？ ​

二、什么是概率分布？ ​

三、影响概率分布的三件事 ​

四、自回归循环 ​

五、易经映射 ​

六、重要推论 ​

补充学习：常用采样策略 ​

扩展理解1：概率分布的直观可视化 ​

扩展理解2：概率分布的动态变化 ​

扩展理解3：和传统程序的本质区别 ​

扩展理解4：常见误区澄清 ​