NVIDIA发布GeForce 256
首次使用"GPU"术语
GPU(Graphics Processing Unit,图形处理单元)是一种专门设计用于并行处理大量数据的处理器。最初GPU是为了加速图形渲染而设计的,但随着技术发展,GPU已经成为高性能计算、深度学习和人工智能领域不可或缺的核心组件。
NVIDIA发布GeForce 256
首次使用"GPU"术语
NVIDIA推出CUDA平台
开启通用GPU计算时代
AlexNet使用GPU训练
引发深度学习革命
Tensor Core首次引入
矩阵运算硬件加速
Hopper架构引入Transformer Engine
FP8精度支持
Blackwell架构双芯片封装设计
首次支持FP4超低精度计算
现代GPU是一个复杂的计算系统,由多个关键组件协同工作。了解这些组件有助于更好地理解GPU的工作原理和性能特点。
SM是GPU的基本计算单元,包含多个CUDA核心、Tensor Core、共享内存和寄存器文件。每个SM可以独立执行指令。
CUDA核心是执行浮点和整数运算的基本处理单元。现代GPU拥有数千到上万个CUDA核心,支持大规模并行计算。
专为矩阵运算设计的加速单元,大幅提升深度学习训练和推理性能,支持混合精度计算。
高速显存用于存储模型参数、激活值和中间计算结果。现代AI GPU采用HBM(高带宽内存)技术,提供超高带宽。
大容量二级缓存减少显存访问延迟,提高数据复用效率,对于大模型推理尤为重要。
高速互连接口用于GPU间通信和与CPU的数据传输。NVLink提供比PCIe高数倍的带宽。
GPU相比传统CPU在特定应用场景下具有显著优势,这些优势使其成为现代计算基础设施的重要组成部分。
数千个核心同时工作,适合处理可并行化的计算任务
单位时间内处理更多数据,提高整体计算效率
相同计算能力下,GPU方案通常比CPU集群更经济
HBM技术提供TB/s级别带宽,满足数据密集型应用需求
每瓦特性能优于CPU,适合大规模数据中心部署
CUDA/cuDNN等软件栈成熟,开发效率高
| 特性 | GPU | CPU |
|---|---|---|
| 核心数量 | 数千至数万个 | 几个至几十个 |
| 单核性能 | 较低 | 高 |
| 并行能力 | 极强 | 有限 |
| 适用场景 | 并行计算、AI训练 | 串行任务、逻辑处理 |
| 内存带宽 | 高 (TB/s级) | 较低 (GB/s级) |
GPU已成为人工智能和深度学习的核心计算平台。其架构特点与AI工作负载的需求高度契合,使其成为训练和部署神经网络的理想选择。
NVIDIA的并行计算平台和编程模型,是GPU计算的基础
深度神经网络加速库,提供高度优化的卷积、池化等操作
深度学习推理优化器和运行时,最大化推理性能
多GPU通信库,支持高效的分布式训练
Tensor Core是NVIDIA在Volta架构(2017年)中首次引入的专用计算单元,专门为加速深度学习中的矩阵运算而设计。它是现代AI GPU的核心竞争力之一。
| 架构 | 代数 | 支持精度 | 主要特点 |
|---|---|---|---|
| Volta (V100) | 第1代 | FP16 | 首次引入Tensor Core |
| Turing (T4) | 第2代 | FP16, INT8, INT4 | 支持整数推理 |
| Ampere (A100) | 第3代 | FP16, BF16, TF32, INT8 | 引入TF32,稀疏加速 |
| Hopper (H100) | 第4代 | FP8, FP16, BF16, TF32 | FP8支持,Transformer Engine |
| Blackwell (B200) | 第5代 | FP4, FP8, FP16, BF16 | FP4支持,性能翻倍 |
Transformer Engine是NVIDIA在Hopper架构中引入的革命性技术,专门针对Transformer模型(如GPT、BERT、LLaMA等)进行优化。它智能地管理精度转换,在保持模型精度的同时最大化性能。
实时监控每层的数值范围,自动在FP8和FP16之间切换,无需人工干预
自动计算和应用缩放因子,防止FP8的动态范围不足导致的溢出或下溢
针对Attention、LayerNorm、FFN等不同层类型采用最优策略
与PyTorch、JAX等主流框架深度集成,开箱即用
Transformer Engine使大型语言模型的训练和推理速度提升显著:
混合精度训练是现代深度学习的关键技术,通过在计算过程中使用多种数值精度,在保持模型质量的同时大幅提升训练速度和降低显存消耗。
8位浮点
E4M3 / E5M2
最新一代AI格式
16位浮点
IEEE半精度
经典AI训练格式
16位Brain Float
更大动态范围
谷歌推广格式
19位TensorFloat
兼容FP32
NVIDIA专有格式
FP8是AI计算的最新突破。它有两种变体:
| 格式 | 位数 | 动态范围 | 精度 | 典型用途 |
|---|---|---|---|---|
| FP32 | 32 | ±3.4×10³⁸ | 高 | 主权重副本、优化器状态、损失计算、梯度累加 |
| TF32 | 19 | 同FP32 | 中高 | 前向/反向传播的矩阵乘法(自动替代FP32) |
| BF16 | 16 | 同FP32 | 中 | 权重存储、激活值、梯度计算(大动态范围场景) |
| FP16 | 16 | ±65504 | 中 | 权重存储、激活值、梯度计算(需损失缩放) |
| FP8 | 8 | 有限 | 较低 | E4M3用于权重/激活值,E5M2用于梯度 |
| INT8 | 8 | -128~127 | 量化 | 推理时的量化权重和激活值 |
| FP4 | 4 | 极有限 | 低 | 推理时的量化权重(需配合高精度激活值) |
主要面向游戏玩家和创作者,也可用于入门级AI开发和小规模训练。
| 型号 | 架构 | CUDA 核心 |
Tensor Core |
显存 容量 |
显存 带宽 |
FP32 算力 |
FP16 算力 |
INT8 算力 |
功耗 |
|---|---|---|---|---|---|---|---|---|---|
| RTX 4090 | Ada Lovelace | 16,384 | 512 | 24GB GDDR6X | 1 TB/s | 82.6 TFLOPS | 330.3 TFLOPS | 660.6 TOPS | 450W |
| RTX 4080 Super | Ada Lovelace | 10,240 | 320 | 16GB GDDR6X | 736 GB/s | 52.2 TFLOPS | 208.8 TFLOPS | 417.6 TOPS | 320W |
| RTX 4070 Ti Super | Ada Lovelace | 8,448 | 264 | 16GB GDDR6X | 672 GB/s | 44.1 TFLOPS | 176.4 TFLOPS | 352.8 TOPS | 285W |
| RTX 4070 | Ada Lovelace | 5,888 | 184 | 12GB GDDR6X | 504 GB/s | 29.1 TFLOPS | 116.4 TFLOPS | 232.8 TOPS | 200W |
| RTX 4060 Ti | Ada Lovelace | 4,352 | 136 | 8/16GB GDDR6 | 288 GB/s | 22.1 TFLOPS | 88.4 TFLOPS | 176.8 TOPS | 165W |
| RTX 3090 | Ampere | 10,496 | 328 | 24GB GDDR6X | 936 GB/s | 35.6 TFLOPS | 71.2 TFLOPS | 142.4 TOPS | 350W |
| RTX 3050 | Ampere | 2,560 | 80 | 8GB GDDR6 | 224 GB/s | 9.1 TFLOPS | 18.2 TFLOPS | 36.4 TOPS | 130W |
专为大规模AI训练和推理设计,配备HBM高带宽内存和高速互连。
| 型号 | 架构 | CUDA 核心 |
Tensor Core |
显存 容量 |
显存 带宽 |
FP32 算力 |
FP16 算力 |
FP8 算力 |
FP4 算力 |
功耗 |
|---|---|---|---|---|---|---|---|---|---|---|
| B200 | Blackwell | 21,760 | 1,152 | 192GB HBM3e | 8 TB/s | 70 TFLOPS | 2.25 PFLOPS | 4.5 PFLOPS | 9 PFLOPS | 1000W |
| B100 | Blackwell | 21,760 | 1,152 | 192GB HBM3e | 8 TB/s | 56 TFLOPS | 1.8 PFLOPS | 3.5 PFLOPS | 7 PFLOPS | 700W |
| H200 | Hopper | 16,896 | 528 | 141GB HBM3e | 4.8 TB/s | 67 TFLOPS | 1.98 PFLOPS | 3.9 PFLOPS | - | 700W |
| H100 SXM | Hopper | 16,896 | 528 | 80GB HBM3 | 3.35 TB/s | 67 TFLOPS | 1.98 PFLOPS | 3.9 PFLOPS | - | 700W |
| H100 PCIe | Hopper | 14,592 | 456 | 80GB HBM3 | 2 TB/s | 51 TFLOPS | 1 PFLOPS | 2 PFLOPS | - | 350W |
| A100 80GB | Ampere | 6,912 | 432 | 80GB HBM2e | 2 TB/s | 19.5 TFLOPS | 312 TFLOPS | - | - | 400W |
| A100 40GB | Ampere | 6,912 | 432 | 40GB HBM2e | 1.6 TB/s | 19.5 TFLOPS | 312 TFLOPS | - | - | 400W |
| L40S | Ada Lovelace | 18,176 | 568 | 48GB GDDR6 | 864 GB/s | 91.6 TFLOPS | 733 TFLOPS | 1.4 PFLOPS | - | 350W |
| 型号 | 架构 | CUDA 核心 |
Tensor Core |
显存容量 | FP32 算力 |
INT8 算力 |
FP4 算力 |
特点 | 功耗 |
|---|---|---|---|---|---|---|---|---|---|
| L4 | Ada Lovelace | 7,680 | 240 | 24GB GDDR6 | 30.3 TFLOPS | 485 TOPS | - | 通用推理,低功耗 | 72W |
| T4 | Turing | 2,560 | 320 | 16GB GDDR6 | 8.1 TFLOPS | 130 TOPS | - | 性价比高,广泛部署 | 70W |
超节点(SuperPOD/DGX SuperPOD)是NVIDIA为大规模AI训练设计的集成化超级计算解决方案,将多台GPU服务器通过高速网络互连,形成统一的计算集群。
最新一代AI超级计算机,配备8块B200 GPU,总计1.5EB显存,72 PFLOPS FP8算力
配备8块H100 SXM GPU,640GB HBM3显存,32 PFLOPS FP8算力,NVLink 900GB/s互连
配备8块A100 GPU,640GB HBM2e显存,5 PFLOPS FP16算力,上一代主力系统
通过InfiniBand/NVLink Switch全连接 | 支持数百到数千GPU并行
NVLink是NVIDIA开发的高速GPU互连技术,每代都大幅提升带宽和连接能力,是构建大规模GPU集群的关键。
| 版本 | 发布年份 | GPU架构 | 单链路 带宽 |
链路数 | 总带宽 (双向) |
信号速率 | 代表产品 |
|---|---|---|---|---|---|---|---|
| NVLink 1.0 | 2016 | Pascal | 20 GB/s | 4 | 160 GB/s | 20 Gbps | P100, DGX-1 |
| NVLink 2.0 | 2017 | Volta | 25 GB/s | 6 | 300 GB/s | 25 Gbps | V100, DGX-2 |
| NVLink 3.0 | 2020 | Ampere | 25 GB/s | 12 | 600 GB/s | 50 Gbps | A100, DGX A100 |
| NVLink 4.0 | 2022 | Hopper | 25 GB/s | 18 | 900 GB/s | 50 Gbps | H100, DGX H100 |
| NVLink 5.0 | 2024 | Blackwell | 50 GB/s | 18 | 1.8 TB/s | 100 Gbps | B200, GB200 NVL72 |
NVLink采用多层级的物理结构设计,通过差分信号对实现高速数据传输。
| NVLink版本 | 链路数 | 子链路/链路 | 差分对/子链路 | 单向数据线 | 双向数据线 | 总铜线估算 |
|---|---|---|---|---|---|---|
| NVLink 1.0 | 4 | 4 | 8 | 256根 | 512根 | ~700根 |
| NVLink 3.0 | 12 | 4 | 8 | 768根 | 1,536根 | ~2,000根 |
| NVLink 4.0 | 18 | 4 | 8 | 1,152根 | 2,304根 | ~3,000根 |
| NVLink 5.0 | 18 | 4 | 8 | 1,152根 | 2,304根 | ~3,000根 |
随着信号速率提升,NVLink正从纯铜互连向光互连过渡。
| 连接场景 | 典型距离 | DGX H100 | GB200 NVL72 | 未来趋势 |
|---|---|---|---|---|
| GPU ↔ 基板 | <30cm | PCB走线 | PCB走线 | PCB走线 |
| 基板 ↔ NVSwitch | ~1m | 铜缆 | 铜缆/AOC | AOC/NPO |
| 机架内互连 | 1-2m | 铜缆 | 主动光缆(AOC) | NPO |
| 跨机架互连 | 2-10m | InfiniBand光纤 | 主动光缆(AOC) | CPO |
| 规模 | GPU数量 | 总显存 | 总算力(FP8) | 典型用途 |
|---|---|---|---|---|
| 入门级 | 32 (4节点) | 2.5 TB | ~125 PFLOPS | 中型模型训练 |
| 标准配置 | 256 (32节点) | 20 TB | ~1 EFLOPS | 大型LLM训练 |
| 大规模 | 1024+ (128+节点) | 80+ TB | 4+ EFLOPS | 前沿模型研发 |
GB200 NVL72和NVL144是NVIDIA基于Blackwell架构推出的新一代AI超级计算平台,采用革命性的机架级设计,将GPU、CPU和网络深度集成,专为超大规模AI训练和推理优化。
单机架集成72个Blackwell GPU + 36个Grace CPU
双机架配置:144个Blackwell GPU + 72个Grace CPU
单链路100GB/s,每GPU配18条链路,GPU间直连带宽达1.8TB/s,是PCIe 5.0的14倍
72核Arm Neoverse V2架构,与GPU通过NVLink-C2C互连,提供480GB LPDDR5X内存
全机架液冷设计,支持高密度部署,PUE可低至1.1,显著降低数据中心能耗
NVLink全互连实现72/144 GPU统一内存寻址,单一模型可直接访问全部显存
| 规格 | DGX H100 | GB200 NVL72 | GB200 NVL144 |
|---|---|---|---|
| GPU数量 | 8 × H100 | 72 × B200 | 144 × B200 |
| CPU | 2 × Intel Xeon | 36 × Grace | 72 × Grace |
| GPU显存 | 640 GB HBM3 | 13.5 TB HBM3e | 27 TB HBM3e |
| 显存带宽 | 26.8 TB/s | 576 TB/s | 1,152 TB/s |
| FP8算力 | 32 PFLOPS | 360 PFLOPS | 720 PFLOPS |
| FP4算力 | - | 720 PFLOPS | 1.44 EFLOPS |
| NVLink带宽 | 900 GB/s/GPU | 1.8 TB/s/GPU | 1.8 TB/s/GPU |
| GPU互连 | 8路全互连 | 72路全互连 | 144路全互连 |
| 功耗 | ~10 kW | ~120 kW | ~240 kW |
| 散热方式 | 风冷/液冷 | 液冷 | 液冷 |
| 形态 | 8U服务器 | 单机架 | 双机架 |
| 推理性能提升 | 基准 | 30倍 (vs DGX H100) | 60倍 (vs DGX H100) |
GPU已经从单纯的图形处理设备演变为人工智能时代的核心计算引擎。通过Tensor Core、Transformer Engine、混合精度计算等创新技术,现代GPU在AI训练和推理方面展现出无可替代的优势:
每代架构AI性能提升2-4倍,推动模型规模持续增长
FP8等低精度格式大幅提升能效比,降低训练成本
CUDA生态系统成熟,开发者工具链完整
超节点方案支持万卡级别训练集群
GPU技术将继续快速演进,以下趋势值得关注:
GH200
H100 GPU
HBM3 80GB
GB200 NVL72/144
B200 GPU
HBM3e 192GB
GB300 NVL72
B300 GPU
HBM3e 288GB
GR200 (预计)
R100 GPU
HBM4
下一代超算
更高算力
HBM4+
GB300是Blackwell架构的升级版,主要提升在于更大的HBM3e显存容量,预计2025年下半年推出。
Blackwell Ultra架构 - 单机架72个GPU + 36个Grace CPU
* 基于官方路线图预测,具体参数以正式发布为准
Rubin是NVIDIA在Blackwell之后的全新GPU架构,搭配Vera CPU,预计2026年推出。这将是一次重大的架构升级。
* 以下为基于官方路线图和行业分析的预测信息
全新一代GPU架构,预计采用更先进制程工艺,支持HBM4内存技术
Grace的继任者,新一代Arm架构CPU,更强的单核性能和能效比
下一代高带宽内存,预计带宽超过6TB/s,容量可达数百GB
预计互连带宽进一步提升,支持更大规模GPU集群
| 规格 | GB200 (Blackwell) | GB300 (Blackwell Ultra) | GR200 (Rubin) 预测 |
|---|---|---|---|
| GPU架构 | Blackwell | Blackwell Ultra | Rubin |
| CPU架构 | Grace | Grace | Vera |
| 制程工艺 | TSMC 4NP | TSMC 4NP | TSMC 3nm / 2nm |
| 内存类型 | HBM3e | HBM3e | HBM4 |
| 单GPU显存 | 192 GB | 288 GB | 384+ GB (预测) |
| 显存带宽 | 8 TB/s | 8+ TB/s | 12+ TB/s (预测) |
| FP8算力提升 | 基准 | ~1.5-2x | ~3-4x (预测) |
| 发布时间 | 2024 | 2025 H2 | 2026 |
Rubin架构的意义:Rubin将是NVIDIA保持AI计算领导地位的关键一代产品。通过引入HBM4内存和新一代GPU/CPU架构,预计将为万亿参数级别的超大模型训练提供更强大的支持,同时大幅提升能效比,满足数据中心对可持续发展的要求。
结语:GPU技术的持续创新正在重塑计算的未来。从大型语言模型的训练到实时AI应用的部署,GPU将继续作为人工智能革命的基石,推动技术边界不断突破。理解GPU的工作原理和最新进展,对于每一位AI从业者和技术爱好者都至关重要。