大语言模型（LLM）

概念

大语言模型（Large Language Model，LLM）是一种基于 Transformer 架构的大规模神经网络，通过在海量文本数据上训练，获得了理解和生成自然语言的能力。LLM 的核心能力是预测下一个 token——给定前文，预测最可能出现的后续内容。

LLM 的标志性突破包括：

2018：GPT-1 和 BERT 开创预训练范式
2020：GPT-3（175B 参数），证明 Scaling Law 有效
2022：ChatGPT（GPT-3.5），RLHF 对齐让模型可用
2023：GPT-4、Claude 2、Llama 2、Gemini
2024：GPT-4o、Claude 3.5、Llama 3、DeepSeek V3

核心能力

涌现能力（Emergent Abilities）

当模型参数规模超过某个阈值时，会出现一些小模型不具备的能力，如：

上下文学习（In-Context Learning）：仅通过 prompt 中的示例学习新任务，无需微调
思维链推理（Chain-of-Thought）：通过逐步推导解决复杂问题
指令遵循（Instruction Following）：理解和执行自然语言指令

Scaling Law

模型性能随参数数量、训练数据量、计算量的增长而可预测地提升。这是 LLM 不断"变大"的理论基础。

主流 LLM 对比

模型	开发方	特点	开源
GPT-4o	OpenAI	多模态、全能型	否
Claude 3.5	Anthropic	长上下文、安全性强	否
Gemini	Google	多模态、Google 生态	否
Llama 3	Meta	开源最强之一	是
DeepSeek V3	DeepSeek	高性价比、MoE 架构	是
Qwen 2.5	阿里	中文能力强	是
Mistral	Mistral AI	轻量高效	部分
DeepSeek R1	DeepSeek	推理能力强（CoT 特化）	是

LLM 的工作方式

输入：用户输入 prompt 文本
分词：将文本切分为 token 序列
编码：将 token 序列通过 Transformer 网络处理
预测：在最后一层产生每个可能 token 的概率分布
采样：根据概率采样生成下一个 token
循环：将生成的 token 追加到输入，重复 4-5 步，直到遇到结束标记

面试常问

LLM "大"在哪些方面？为什么大更有效？
你用过哪些 LLM？通过什么方式集成到前端？
LLM 的局限性有哪些（幻觉、时效性、算力成本等）？

参考