深度学习
概念
深度学习(Deep Learning)是机器学习的一个子集,核心特征是使用多层神经网络(深度神经网络)自动从数据中提取层级化特征。与传统机器学习需要人工设计特征不同,深度学习能端到端地从原始数据中学习。
深度学习的"深度"指的是网络中隐藏层的数量——层数越多,模型能学习到的抽象层次越丰富。
核心架构
DNN(深度神经网络 / 全连接网络)
每一层神经元与下一层全部相连。适合结构化数据(表格数据),但在图像和文本领域已被更优架构替代。
CNN(卷积神经网络)
通过卷积核在输入上滑动提取局部特征,核心组件包括卷积层、池化层、全连接层。
- 擅长处理图像、视频等网格结构数据
- 代表模型:ResNet、VGG、EfficientNet
- 关键特性:参数共享、平移不变性
RNN(循环神经网络)
处理序列数据的网络,通过隐藏状态传递上文信息。
- 擅长文本、时间序列等顺序数据
- 核心问题:长序列导致的梯度消失/爆炸
- 改进变体:LSTM(长短期记忆)、GRU(门控循环单元)
Transformer
2017 年提出的架构,用自注意力机制完全替代了 RNN 的循环结构,已成为当前大语言模型的标准架构。详见 Transformer 章节。
深度学习 vs 浅层学习
| 维度 | 传统机器学习 | 深度学习 |
|---|---|---|
| 特征工程 | 需要人工设计 | 自动学习特征 |
| 数据量需求 | 较少 | 大量 |
| 算力需求 | 低 | 高 |
| 可解释性 | 较好 | 较差(黑箱) |
| 性能上限 | 有限 | 随数据规模持续提升 |
面试常问
- CNN 和 RNN 各适合处理什么类型的数据?
- 深度学习为什么需要大量数据?
- 你在前端用过深度学习模型吗?如何部署?
