深度学习

概念

深度学习（Deep Learning）是机器学习的一个子集，核心特征是使用多层神经网络（深度神经网络）自动从数据中提取层级化特征。与传统机器学习需要人工设计特征不同，深度学习能端到端地从原始数据中学习。

深度学习的"深度"指的是网络中隐藏层的数量——层数越多，模型能学习到的抽象层次越丰富。

每一层神经元与下一层全部相连。适合结构化数据（表格数据），但在图像和文本领域已被更优架构替代。

通过卷积核在输入上滑动提取局部特征，核心组件包括卷积层、池化层、全连接层。

处理序列数据的网络，通过隐藏状态传递上文信息。

2017 年提出的架构，用自注意力机制完全替代了 RNN 的循环结构，已成为当前大语言模型的标准架构。详见 Transformer 章节。