Skip to content

17 · Temperature · 变爻调节之道


一、它解决什么问题?

概率分布有了,所有词都有了概率。 但如果直接选最高概率词,会发生什么? 输出永远一样,像背课文,毫无变化。 Temperature 的作用:

二、Temperature 怎么工作?

本质是在 Softmax 函数里加入一个除数:

  • ● $$T$$ 越小 → 分布越尖锐 → 高概率词更突出
  • ● $$T$$ 越大 → 分布越平坦 → 低概率词也有机会

三、不同 Temperature 的效果

Temperature分布形状输出特点适合场景
= 0极度尖锐完全确定,永远选最高概率词代码、数学、事实查询
0.3较尖锐保守稳定客服、摘要、公文写作
0.7适中平衡创意与稳定日常对话、通用场景
1.0原始分布不做任何调整基准测试、学术研究
1.5+平坦随机性高,有惊喜也有混乱写诗、创意写作、头脑风暴

四、易经映射

心态Temperature
只信最旺之象,不接受变数= 0
平常心,顺势而为≈ 0.7
广开卦象,拥抱变数≥ 1.5

五、一句话记住

Temperature 不改变哪些词存在, 只改变每个词被选中的可能性。


补充学习:Temperature 实际应用指南

  1. 常见大模型默认值

    • GPT 系列默认 0.7
    • Claude 系列默认 0.8
    • DeepSeek 系列默认 0.6
  2. 极端值注意事项

    • T > 2 时,概率分布过度平坦,输出可能完全混乱无意义
    • T = 0 时,输出完全可复现,同一个输入永远得到同一个输出,适合需要确定性的场景
  3. 产品中的应用: 各大AI产品里的「创意模式/平衡模式/精确模式」,本质上就是切换不同的 Temperature 值,不需要用户理解技术参数,直接按场景选择即可。


扩展理解1:Temperature 的直观效果对比

以输入"写一句关于春天的诗"为例,不同T值的输出效果:

T值输出示例特点
0春眠不觉晓,处处闻啼鸟。夜来风雨声,花落知多少。直接输出训练数据里最常见的古诗,完全没有原创性
0.3春风拂柳绿江南,细雨润物百花繁。燕舞莺歌山水秀,人间三月正斑斓。工整稳定,但创意不足,用词比较常规
0.7风把三月的阳光揉成软绵的诗行,柳梢蘸着春水写满温柔的诗行。每一朵桃花绽开的声音,都是春天写给世界的情书。平衡创意和通顺,既有新意又符合逻辑
1.5三月打碎了阳光的酒盏,漫山遍野流淌着金色的醉意。风拎着花的裙摆跑过山坡,把整个季节都酿成了一首会呼吸的诗。创意十足,有惊喜的比喻,但偶尔会有不通顺的地方
2.5春天的阳光纽扣扣住了风的衣角,蝴蝶驮着云朵的梦在花瓣上跳踢踏舞,雨滴敲着玻璃琴弹响了彩虹的旋律。想象力过于发散,逻辑混乱,难以理解

扩展理解2:与采样策略的配合使用

Temperature需要和采样策略配合才能达到最佳效果,常见组合推荐:

场景Temperature采样策略效果
代码生成0.1-0.3Top-K=1(贪心采样)稳定准确,减少语法错误
知识问答0.2-0.4Top-p=0.1事实准确,减少幻觉
日常对话0.6-0.8Top-p=0.9自然流畅,有适当变化
创意写作1.0-1.5Top-p=0.95富有创意,有惊喜表达
头脑风暴1.2-1.8Top-K=50发散性强,提供更多可能性

扩展理解3:常见误区澄清

❌ 误区:Temperature越高,创意越好 ✅ 真相:创意和混乱只有一线之隔,超过1.8之后大部分输出会变成胡言乱语,适合的才是最好的。

❌ 误区:调Temperature就能解决所有问题 ✅ 真相:Temperature只是控制随机性,内容质量还是取决于模型本身的能力和Prompt的质量。Temperature高不代表模型会变"聪明",只是会选更低概率的词。

❌ 误区:所有场景都用默认值就好 ✅ 真相:不同任务对随机性的要求天差地别,做数学题用T=1.5肯定会出错,写诗歌用T=0肯定会呆板。根据场景调整参数才能得到最好效果。

扩展理解4:底层逻辑的哲学思考

Temperature的本质,是人类对"确定性"和"可能性"的权衡:

  • 追求确定 → 压低T,得到稳定可控的结果
  • 探索可能 → 升高T,拥抱不确定性带来的惊喜

这和人类做决策的逻辑完全一致:做严谨的工作时求稳,做创造性的工作时求变。Temperature这个简单的参数,背后藏着的是人类面对世界的两种心态。