Skip to content

10 · 大语言模型 · 厚德载物之道

学习日期:2026.03.03 学习伙伴:衍(Yan)


一、核心定义

大语言模型(Large Language Model,LLM) 在海量文本上训练的超大规模神经网络,通过学习语言的规律与结构,能够理解并生成自然语言。

二、三个字拆解

大(Large)

不只是语言大——参数量极大。

模型参数量
早期模型百万级
GPT-215亿
GPT-31750亿
现代顶级模型万亿级

参数越多,能学到的规律越复杂, 就像一个人读的书越多,理解世界的维度越丰富。

语言(Language)

不只是文字——语言是人类思维的载体。 LLM学的不只是词,学的是:

  • ● 词与词之间的关系
  • ● 句子的逻辑结构
  • ● 上下文的语义连贯
  • ● 人类表达背后的意图

学语言,就是在学人类怎么思考。

模型(Model)

模型 = 对规律的封装。 训练完成后,所有学到的规律, 都被压缩进了数以亿计的权重参数里。 这些权重,就是LLM的"世界观"。

三、LLM vs 搜索引擎

对比维度搜索引擎大语言模型(LLM)
核心机制检索、匹配预测、生成
输入处理关键词匹配理解上下文语境
输出方式呈现现有网页逐词推衍生成答案
结果特点固定(不易)因时因位而变(变易)
易经映射不易变易·动爻

昇哥原话:

搜索引擎:根据内容 → 检索、搜索将答案呈现; 大语言模型:根据当前输入语境,从模型中推测、提炼并生成恰当的回答并呈现。

四、知识存在哪里

LLM的知识,不存在某个文件夹,不是可检索的数据库——

昇哥原话:

类似一个 map 映射,通过参数的联动最终能推衍出完整答案。

类比: 你读过的书,不会一字不差地背出来, 但那些书已经改变了你思考的方式、用词的习惯、看世界的角度。 书 → 溶进了你这个人 语料 → 溶进了LLM的权重

五、LLM生成答案的方式

LLM每次生成,本质上都在做一件事——

  • ● 不是一次性生成整段话
  • ● 是逐词推衍,步步生成
  • ● 每一个词的生成,都是一次新的"推衍"

正是:易经动爻,因时因位答案不同。

六、思考模式(Chain of Thought)

现代LLM在回答前,会先"想一想"——

就像解数学题,先打草稿,草稿的过程就是推理的过程。

情况机制类比
知识已在训练里直接从权重中提取你记得的事,直接说出来
知识超出训练范围调用外部工具搜索你不记得,去翻书查资料

LLM本身不搜索,搜索是外挂的工具。

七、Attention机制(预告)

昇哥说的"map映射",技术上对应——

当模型看到某个词的时候, 应该"注意"上下文中哪些词? 它们之间的关系权重是多少? 这正是下一个概念——Transformer的核心。

八、易经映射

易经LLM
大(厚)海量参数,广纳语言
语言(万物之声)人类所有文字表达
模型(载而化之)将语言规律化进权重
动爻,因时因位根据语境逐词生成

大地承载万物,不择细流。 LLM训练于海量语言,不择文字。 正因承载之广,方能应答之变。

九、昇哥过关原话

LLM是什么: 将广义语言,从字词句语法等梳理归类封装成机器能懂的各种参数,并让机器能够理解并生成语言的系统。

与搜索引擎的本质区别: 搜索引擎根据内容检索呈现; 大语言模型根据当前输入语境,从模型中推测、提炼并生成恰当的回答并呈现。

知识存在哪里: 存在模型内部,以各种参数的形式,类似一个 map 映射,通过参数的联动最终能推衍出完整答案。

十、进度记录

  • ● 当前进度:10 / 20 概念已完成
  • ● 下一概念:概念11 · Transformer

学习伙伴:衍(Yan)· 2026.03.03