Deep Learning Core Technology
反向传播算法
有效解决多层网络训练难题
02 / 07
Training Pipeline
模型训练的四大闭环步骤
训练的本质是让模型从数据中学习规律,自动调整参数,找到最优权重
1️⃣
前向传播
Forward
2️⃣
计算误差
Loss
3️⃣
反向传播
Backprop
4️⃣
参数更新
Update
反向传播 + 前向传播 = 90% 算力
反向传播算力是前向传播的 1.5~2倍
03 / 07
Backpropagation
什么是反向传播?
反向传播 = 从输出层向输入层倒推,用链式法则计算梯度

🎯
核心目标

将"结果的总误差"精准拆分为"每个参数的具体问题",让模型不是瞎调参数,而是精准、有依据地优化

  • 语言模型:预测下一个字
  • 图像模型:识别图像内容
  • 核心:最小化损失函数

⚙️
技术本质

大量求导过程,本质是求解变化率。对GPU来说,求导就是一组标准化的张量计算组合。

  • 链式法则逐层求导
  • 梯度从后向前传播
  • GPU张量单元天然适配

🔄
试错与纠正

就像学习骑自行车:摔倒 → 调整平衡 → 再试 → 再调 → 学会。不是一次成功,而是持续迭代优化。

  • 输出误差逐层分解
  • 每个参数获得独立梯度
  • 微调而非大幅改动

🚀
历史性突破

在反向传播出现之前,参数更新只能依赖人工或低效算法,无法支持大规模神经网络。

1986
深度学习之父 Hinton 正式提出反向传播算法,首次让深层神经网络训练成为现实
04 / 07
Intuitive Analogy
理解训练:厨师学做招牌菜
把模型训练比作厨师学做大厨的味道 —— 目标固定,食材固定,只有调料用量需要摸索
01
前向传播

🎒 凭感觉放调料

厨师凭感觉随便放调料(初始化参数),做完一盘排骨(模型预测)。调料的克数 = 模型权重参数。

02
计算损失

👅 对比味道

对比大厨的味道,发现"糖少了偏酸"、"盐多了齁咸"(计算预测与真实标签的误差)。

03
反向传播

🧠 从结果倒推

这是核心!从最终味道倒推:酸是因为醋多了 2 克、糖少了 3 克。这就是梯度,精准定位每个参数的问题。

04
参数更新

⚖️ 微调用量

按倒推结论微调:醋减 2 克,糖加 3 克(优化器更新参数)。不是瞎调,而是按"问题单"精准调整。

经过无数次 "做菜 → 尝味 → 调整" 的迭代,味道最终逼近大厨(模型收敛)。
核心本质:不是瞎放调料,而是按倒推的问题单精准微调,效率天差地别。

05 / 07
Compute Power
算力与数学原理
反向传播的核心是大量求导 —— GPU 的张量计算单元为此而生

📊 算力分布

前向传播
40%
反向传播
55%
其他开销
5%
反向传播 + 前向传播占 90%+ 的训练算力,反向传播约为前向传播的 1.5~2 倍

🧮 链式法则(核心数学)

链式法则 · Chain Rule
∂L/∂w = ∂L/∂y · ∂y/∂z · ∂z/∂w
损失对权重的梯度 = 损失对输出的梯度 × 输出对中间量的梯度 × 中间量对权重的梯度

∂L/∂W⁽ˡ⁾ = ∂L/∂aᴸ · σ'(zᴸ) · a⁽ˡ⁻¹⁾
每层梯度 = 上游梯度 × 激活导数 × 本层输入

💡 为什么用 GPU 训练大模型?

🎯
求导 = 标准化张量运算
GPU 的大规模并行计算单元天然适合处理张量(矩阵/向量)运算,反向传播的梯度计算本质就是一组标准化的张量操作组合。
张量计算单元 (Tensor Core)
专为矩阵乘法设计的硬件单元,可以在一个时钟周期内完成大量浮点运算,将原本需要数千个时钟周期的计算压缩到极少数步骤中。
🔗
链式法则天然并行化
神经网络的逐层结构使梯度计算天然适合并行:每层的梯度可以在前一层计算完成前同时求解,大幅提升计算效率。
06 / 07
Key Insights
核心要点
反向传播是训练算法和工程范式的双重革新
🔗

自动化训练

让神经网络摆脱手工调参的局限,实现真正意义上的自动化训练

📏

精准优化

将总误差精确分配给每个参数,有据可依地调整,而非盲目猜测

🏗️

支持深层网络

突破大模型规模的天花板,使构建更深、更大的网络成为可能

🔄

迭代收敛

试错→纠正的循环过程,像骑自行车一样,反复调整直至掌握

算力驱动

GPU + 张量计算单元完美适配反向传播的标准化求导运算

🚀

沿用至今

1986 年提出至今,千亿参数大模型依然沿用这套核心逻辑

反向传播 把"结果的总误差"拆成了"每个参数的具体问题",
让模型不是瞎调参数,而是精准、有依据地优化
翻页 Home 首页 End 末页