概率分布与 Softmax

概念

LLM 的最终输出是一个概率分布——对于词汇表中的每个 token，模型给出一个概率值，表示该 token 作为下一个输出 token 的可能性。所有概率之和为 1。

Softmax 是将模型的原始输出（Logits）转换为概率分布的数学函数。

模型最后一层输出的原始数值称为 Logits（未归一化的对数概率）。每个 Logit 对应词汇表中的一个 token：

softmax(x)_i = exp(x_i) / Σ exp(x_j)

作用三步：

示例：

Logits:    [2.0, 1.0, 0.1]
exp:       [7.39, 2.72, 1.11]
softmax:   [0.66, 0.24, 0.10]    ← 概率分布

所有输出概率之和恒为 1，构成合法的概率分布。

exp 函数将 Logits 中的微小差异放大，让模型"更自信"地选出最可能的 token。GPT 的高 Logits 差值和低 Temperature 结合会产生确定性强的输出。

在 Softmax 之前除以一个 Temperature 参数 T：

softmax(x/T)_i = exp(x_i/T) / Σ exp(x_j/T)

API 中常见的 logprobs 参数，返回每个输出 token 的对数概率：

logprobs_i = log(P(token_i))