反向传播算法 - 深度学习的基石

Deep Learning Core Technology

反向传播算法

有效解决多层网络训练难题

02 / 07

Training Pipeline

模型训练的四大闭环步骤

训练的本质是让模型从数据中学习规律，自动调整参数，找到最优权重

1️⃣

前向传播

Forward

→

2️⃣

计算误差

Loss

→

3️⃣

反向传播

Backprop

→

4️⃣

参数更新

Update

↻

反向传播 + 前向传播 = 90% 算力
反向传播算力是前向传播的 1.5~2倍

03 / 07

Backpropagation

什么是反向传播？

反向传播 = 从输出层向输入层倒推，用链式法则计算梯度

🎯
核心目标

将"结果的总误差"精准拆分为"每个参数的具体问题"，让模型不是瞎调参数，而是精准、有依据地优化。

语言模型：预测下一个字
图像模型：识别图像内容
核心：最小化损失函数

⚙️
技术本质

大量求导过程，本质是求解变化率。对GPU来说，求导就是一组标准化的张量计算组合。

链式法则逐层求导
梯度从后向前传播
GPU张量单元天然适配

🔄
试错与纠正

就像学习骑自行车：摔倒 → 调整平衡 → 再试 → 再调 → 学会。不是一次成功，而是持续迭代优化。

输出误差逐层分解
每个参数获得独立梯度
微调而非大幅改动

🚀
历史性突破

在反向传播出现之前，参数更新只能依赖人工或低效算法，无法支持大规模神经网络。

1986

深度学习之父 Hinton 正式提出反向传播算法，首次让深层神经网络训练成为现实

04 / 07

Intuitive Analogy

理解训练：厨师学做招牌菜

把模型训练比作厨师学做大厨的味道 —— 目标固定，食材固定，只有调料用量需要摸索

01

前向传播

🎒 凭感觉放调料

厨师凭感觉随便放调料（初始化参数），做完一盘排骨（模型预测）。调料的克数 = 模型权重参数。

02

计算损失

👅 对比味道

对比大厨的味道，发现"糖少了偏酸"、"盐多了齁咸"（计算预测与真实标签的误差）。

03

反向传播

🧠 从结果倒推

这是核心！从最终味道倒推：酸是因为醋多了 2 克、糖少了 3 克。这就是梯度，精准定位每个参数的问题。

04

参数更新

⚖️ 微调用量

按倒推结论微调：醋减 2 克，糖加 3 克（优化器更新参数）。不是瞎调，而是按"问题单"精准调整。

经过无数次 "做菜 → 尝味 → 调整" 的迭代，味道最终逼近大厨（模型收敛）。
核心本质：不是瞎放调料，而是按倒推的问题单精准微调，效率天差地别。

05 / 07

Compute Power

算力与数学原理

反向传播的核心是大量求导 —— GPU 的张量计算单元为此而生

📊 算力分布

前向传播

40%

反向传播

55%

其他开销

5%

反向传播 + 前向传播占 90%+ 的训练算力，反向传播约为前向传播的 1.5~2 倍

🧮 链式法则（核心数学）

链式法则 · Chain Rule

∂L/∂w = ∂L/∂y · ∂y/∂z · ∂z/∂w

损失对权重的梯度 = 损失对输出的梯度 × 输出对中间量的梯度 × 中间量对权重的梯度

∂L/∂W⁽ˡ⁾ = ∂L/∂aᴸ · σ'(zᴸ) · a⁽ˡ⁻¹⁾
每层梯度 = 上游梯度 × 激活导数 × 本层输入

💡 为什么用 GPU 训练大模型？

🎯

求导 = 标准化张量运算

GPU 的大规模并行计算单元天然适合处理张量（矩阵/向量）运算，反向传播的梯度计算本质就是一组标准化的张量操作组合。

⚡

张量计算单元 (Tensor Core)

专为矩阵乘法设计的硬件单元，可以在一个时钟周期内完成大量浮点运算，将原本需要数千个时钟周期的计算压缩到极少数步骤中。

🔗

链式法则天然并行化

神经网络的逐层结构使梯度计算天然适合并行：每层的梯度可以在前一层计算完成前同时求解，大幅提升计算效率。

06 / 07

Key Insights

核心要点

反向传播是训练算法和工程范式的双重革新

🔗

自动化训练

让神经网络摆脱手工调参的局限，实现真正意义上的自动化训练

📏

精准优化

将总误差精确分配给每个参数，有据可依地调整，而非盲目猜测

🏗️

支持深层网络

突破大模型规模的天花板，使构建更深、更大的网络成为可能

🔄

迭代收敛

试错→纠正的循环过程，像骑自行车一样，反复调整直至掌握

⚡

算力驱动

GPU + 张量计算单元完美适配反向传播的标准化求导运算

🚀

沿用至今

1986 年提出至今，千亿参数大模型依然沿用这套核心逻辑

反向传播 把"结果的总误差"拆成了"每个参数的具体问题"，
让模型不是瞎调参数，而是精准、有依据地优化。

🎯核心目标

⚙️技术本质

🔄试错与纠正

🚀历史性突破

🎒 凭感觉放调料

👅 对比味道

🧠 从结果倒推

⚖️ 微调用量

📊 算力分布

🧮 链式法则（核心数学）

💡 为什么用 GPU 训练大模型？

自动化训练

精准优化

支持深层网络

迭代收敛

算力驱动

沿用至今

🎯
核心目标

⚙️
技术本质

🔄
试错与纠正

🚀
历史性突破