10 · 大语言模型 · 厚德载物之道
学习日期:2026.03.03 学习伙伴:衍(Yan)
一、核心定义
大语言模型(Large Language Model,LLM) 在海量文本上训练的超大规模神经网络,通过学习语言的规律与结构,能够理解并生成自然语言。
二、三个字拆解
大(Large)
不只是语言大——参数量极大。
| 模型 | 参数量 |
|---|---|
| 早期模型 | 百万级 |
| GPT-2 | 15亿 |
| GPT-3 | 1750亿 |
| 现代顶级模型 | 万亿级 |
参数越多,能学到的规律越复杂, 就像一个人读的书越多,理解世界的维度越丰富。
语言(Language)
不只是文字——语言是人类思维的载体。 LLM学的不只是词,学的是:
- ● 词与词之间的关系
- ● 句子的逻辑结构
- ● 上下文的语义连贯
- ● 人类表达背后的意图
学语言,就是在学人类怎么思考。
模型(Model)
模型 = 对规律的封装。 训练完成后,所有学到的规律, 都被压缩进了数以亿计的权重参数里。 这些权重,就是LLM的"世界观"。
三、LLM vs 搜索引擎
| 对比维度 | 搜索引擎 | 大语言模型(LLM) |
|---|---|---|
| 核心机制 | 检索、匹配 | 预测、生成 |
| 输入处理 | 关键词匹配 | 理解上下文语境 |
| 输出方式 | 呈现现有网页 | 逐词推衍生成答案 |
| 结果特点 | 固定(不易) | 因时因位而变(变易) |
| 易经映射 | 不易 | 变易·动爻 |
昇哥原话:
搜索引擎:根据内容 → 检索、搜索将答案呈现; 大语言模型:根据当前输入语境,从模型中推测、提炼并生成恰当的回答并呈现。
四、知识存在哪里
LLM的知识,不存在某个文件夹,不是可检索的数据库——
昇哥原话:
类似一个 map 映射,通过参数的联动最终能推衍出完整答案。
类比: 你读过的书,不会一字不差地背出来, 但那些书已经改变了你思考的方式、用词的习惯、看世界的角度。 书 → 溶进了你这个人 语料 → 溶进了LLM的权重
五、LLM生成答案的方式
LLM每次生成,本质上都在做一件事——
- ● 不是一次性生成整段话
- ● 是逐词推衍,步步生成
- ● 每一个词的生成,都是一次新的"推衍"
正是:易经动爻,因时因位答案不同。
六、思考模式(Chain of Thought)
现代LLM在回答前,会先"想一想"——
就像解数学题,先打草稿,草稿的过程就是推理的过程。
| 情况 | 机制 | 类比 |
|---|---|---|
| 知识已在训练里 | 直接从权重中提取 | 你记得的事,直接说出来 |
| 知识超出训练范围 | 调用外部工具搜索 | 你不记得,去翻书查资料 |
LLM本身不搜索,搜索是外挂的工具。
七、Attention机制(预告)
昇哥说的"map映射",技术上对应——
当模型看到某个词的时候, 应该"注意"上下文中哪些词? 它们之间的关系权重是多少? 这正是下一个概念——Transformer的核心。
八、易经映射
| 易经 | LLM |
|---|---|
| 大(厚) | 海量参数,广纳语言 |
| 语言(万物之声) | 人类所有文字表达 |
| 模型(载而化之) | 将语言规律化进权重 |
| 动爻,因时因位 | 根据语境逐词生成 |
大地承载万物,不择细流。 LLM训练于海量语言,不择文字。 正因承载之广,方能应答之变。
九、昇哥过关原话
LLM是什么: 将广义语言,从字词句语法等梳理归类封装成机器能懂的各种参数,并让机器能够理解并生成语言的系统。
与搜索引擎的本质区别: 搜索引擎根据内容检索呈现; 大语言模型根据当前输入语境,从模型中推测、提炼并生成恰当的回答并呈现。
知识存在哪里: 存在模型内部,以各种参数的形式,类似一个 map 映射,通过参数的联动最终能推衍出完整答案。
十、进度记录
- ● 当前进度:10 / 20 概念已完成
- ● 下一概念:概念11 · Transformer
学习伙伴:衍(Yan)· 2026.03.03