10 · 大语言模型 · 厚德载物之道

学习日期：2026.03.03 学习伙伴：衍（Yan）

一、核心定义

大语言模型（Large Language Model，LLM）在海量文本上训练的超大规模神经网络，通过学习语言的规律与结构，能够理解并生成自然语言。

二、三个字拆解

大（Large）

不只是语言大——参数量极大。

模型	参数量
早期模型	百万级
GPT-2	15亿
GPT-3	1750亿
现代顶级模型	万亿级

参数越多，能学到的规律越复杂，就像一个人读的书越多，理解世界的维度越丰富。

语言（Language）

不只是文字——语言是人类思维的载体。 LLM学的不只是词，学的是：

● 词与词之间的关系
● 句子的逻辑结构
● 上下文的语义连贯
● 人类表达背后的意图

学语言，就是在学人类怎么思考。

模型（Model）

模型 = 对规律的封装。训练完成后，所有学到的规律，都被压缩进了数以亿计的权重参数里。这些权重，就是LLM的"世界观"。

三、LLM vs 搜索引擎

对比维度	搜索引擎	大语言模型（LLM）
核心机制	检索、匹配	预测、生成
输入处理	关键词匹配	理解上下文语境
输出方式	呈现现有网页	逐词推衍生成答案
结果特点	固定（不易）	因时因位而变（变易）
易经映射	不易	变易·动爻

昇哥原话：

搜索引擎：根据内容 → 检索、搜索将答案呈现；大语言模型：根据当前输入语境，从模型中推测、提炼并生成恰当的回答并呈现。

四、知识存在哪里

LLM的知识，不存在某个文件夹，不是可检索的数据库——

昇哥原话：

类似一个 map 映射，通过参数的联动最终能推衍出完整答案。

类比：你读过的书，不会一字不差地背出来，但那些书已经改变了你思考的方式、用词的习惯、看世界的角度。书 → 溶进了你这个人语料 → 溶进了LLM的权重

五、LLM生成答案的方式

LLM每次生成，本质上都在做一件事——

● 不是一次性生成整段话
● 是逐词推衍，步步生成
● 每一个词的生成，都是一次新的"推衍"

正是：易经动爻，因时因位答案不同。

六、思考模式（Chain of Thought）

现代LLM在回答前，会先"想一想"——

就像解数学题，先打草稿，草稿的过程就是推理的过程。

情况	机制	类比
知识已在训练里	直接从权重中提取	你记得的事，直接说出来
知识超出训练范围	调用外部工具搜索	你不记得，去翻书查资料

LLM本身不搜索，搜索是外挂的工具。

七、Attention机制（预告）

昇哥说的"map映射"，技术上对应——

当模型看到某个词的时候，应该"注意"上下文中哪些词？它们之间的关系权重是多少？这正是下一个概念——Transformer的核心。

八、易经映射

易经	LLM
大（厚）	海量参数，广纳语言
语言（万物之声）	人类所有文字表达
模型（载而化之）	将语言规律化进权重
动爻，因时因位	根据语境逐词生成

大地承载万物，不择细流。 LLM训练于海量语言，不择文字。正因承载之广，方能应答之变。

九、昇哥过关原话

LLM是什么：将广义语言，从字词句语法等梳理归类封装成机器能懂的各种参数，并让机器能够理解并生成语言的系统。

与搜索引擎的本质区别：搜索引擎根据内容检索呈现；大语言模型根据当前输入语境，从模型中推测、提炼并生成恰当的回答并呈现。

知识存在哪里：存在模型内部，以各种参数的形式，类似一个 map 映射，通过参数的联动最终能推衍出完整答案。

十、进度记录

● 当前进度：10 / 20 概念已完成
● 下一概念：概念11 · Transformer

学习伙伴：衍（Yan）· 2026.03.03

10 · 大语言模型 · 厚德载物之道 ​

一、核心定义 ​

二、三个字拆解 ​

大（Large） ​

语言（Language） ​

模型（Model） ​

三、LLM vs 搜索引擎 ​

四、知识存在哪里 ​

五、LLM生成答案的方式 ​

六、思考模式（Chain of Thought） ​

七、Attention机制（预告） ​

八、易经映射 ​

九、昇哥过关原话 ​

十、进度记录 ​