CPO(Co-Packaged Optics)
光模块与计算芯片直接封装 · Kyber NVL576

突破 AI 数据中心的能耗与带宽瓶颈

70%
功耗降低
带宽密度提升
10×
可靠性提升
50%
延迟降低
01 — 技术核心

从"插拔"到"封装"

CPO 技术彻底重构了数据中心的光电互联架构,将光引擎直接集成于芯片封装内部

⛔ 传统可插拔方案
🔌

可插拔光模块

数据从芯片出发,经过 10-20cm 的 PCB 电路板才到达光模块,信号损耗巨大、功耗高昂

单端口功耗 20-30W
✅ CPO 共封装方案
📦

芯片级光互联

光引擎与 ASIC/GPU 直接封装于同一基板,电信号传输距离仅 1-2mm,功耗大幅降低

单端口功耗 ≈ 9W
📐

物理集成

将光引擎(负责光电转换)直接与交换芯片(ASIC)或 GPU 封装在同一个基板上,消除了传统插拔接口的物理限制。

距离革命

电信号传输距离从传统的 10-20 厘米缩短至 1-2 毫米,实现真正的"芯片级光互联",信号完整性大幅提升。

▼ 传统方案信号路径

🧠
计算芯片
📏
PCB 10-20cm
🔌
可插拔光模块
💡
光纤网络

▼ CPO 方案信号路径

🧠
计算芯片
📦
1-2mm 共封装
💡
光纤网络
02 — 核心优势

解决 AI 工厂的四大痛点

面向千兆瓦级 AI 工厂,CPO 在功耗、带宽、可靠性、延迟四个维度带来颠覆性提升

性能维度 传统方案 CPO 方案 提升效果
⚡ 功耗 单端口 20-30W 单端口 ≈ 9W ↓ 降低 60%-70%
📶 带宽密度 端口密度 ≤ 64×400G 端口密度 512×800G ↑ 带宽提升 16 倍
🛡️ 可靠性 插拔易受污染/故障 减少组件数量 ↑ 提升 10 倍
⏱️ 延迟 信号路径长 路径极短(1-2mm) ↓ 降低 50%

📊 功耗对比

传统方案25W / 端口
CPO 方案9W / 端口
节省 64% 能耗

📊 信号路径长度

传统方案150mm(15cm)
CPO 方案1.5mm
缩短 100 倍
🔋

极致节能

单端口功耗从 25W 降至 9W,千端口交换机年节电超 14 万度

🚀

超高带宽

原生支持 800G/1.6T 速率,总交换带宽可达 409.6 Tb/s

🛡️

高可靠性

消除插拔接口,减少组件数量,系统可靠性提升 10 倍

超低延迟

信号路径缩短 100 倍,端到端延迟降低 50%

03 — 产品布局

英伟达 CPO 产品矩阵

覆盖以太网与 InfiniBand 双架构,构建"数据中心即计算机"的 AI 基础设施

🏭
AI 工厂
🌐
CPO 网络层
📡
Spectrum-X / Quantum-X
🧠
GPU 集群互联
Spectrum-X Photonics
Ethernet 以太网

面向以太网架构的 CPO 交换平台,专为生成式 AI 大规模集群设计,实现超高密度光互联

  • 128 至 512 个 800Gb/s 端口
  • 总交换带宽高达 409.6 Tb/s
  • 专为生成式 AI 工作负载优化
  • 支持 RoCE v2 高性能以太网
  • 与 NVIDIA BlueField DPU 深度集成
🎯 定位:大规模多租户 AI 云
Quantum-X Photonics
InfiniBand

面向 InfiniBand 架构的 CPO 交换平台,采用硅光引擎与液冷技术,追求极致性能

  • 144 个 800Gb/s 端口
  • 采用硅光子(Silicon Photonics)引擎
  • 集成先进液冷散热技术
  • 超低延迟 InfiniBand 互联
  • 英伟达首款 CPO 交换机
🎯 定位:超大规模 AI 训练集群
对比项 Spectrum-X Photonics Quantum-X Photonics
网络协议 以太网 (Ethernet) InfiniBand
端口数量 128 – 512 × 800G 144 × 800G
总带宽 409.6 Tb/s 115.2 Tb/s
光引擎 CPO 光模块 硅光子引擎
散热方式 风冷 / 液冷 液冷
典型场景 多租户 AI 云 / 推理 大规模 AI 训练
04 — 上市时间表

2026:CPO 商用元年

英伟达已明确将 2026 年作为 CPO 技术的规模部署元年,产业链已进入实质性量产准备阶段

Quantum-X Photonics

已发布

InfiniBand 架构 · 英伟达首款 CPO 交换机

📅 发布时间
2025年3月 GTC 大会
🚀 规模部署
2026年上半年(CoreWeave、Lambda 等已确认)

Spectrum-X Photonics

待出货

Ethernet 架构 · 面向多租户 AI 云

📅 发布时间
2025年 GTC 大会
🚀 计划出货
2026年下半年

▼ CPO 技术发展路线图

2025 Q1

GTC 2025 正式发布

Quantum-X Photonics 与 Spectrum-X Photonics 在 GTC 大会亮相,标志着英伟达 CPO 技术正式进入产品化阶段

已完成
2025 H2

小规模验证部署

合作伙伴开始小规模试用 Quantum-X,验证 CPO 在真实 AI 训练场景中的性能与可靠性

进行中
2026 H1

Quantum-X 规模部署

CoreWeave、Lambda 等合作伙伴大规模部署 InfiniBand CPO 交换机,CPO 商用正式启动

即将到来
2026 H2

Spectrum-X 开始出货

以太网 CPO 交换机量产出货,覆盖多租户 AI 云和大规模推理场景

计划中
2027

GPU 侧 CPO · Kyber NVL576

CPO 技术从交换机扩展至 GPU 封装。Kyber 单机架集成 576 颗 GPU(4 canister × 18 刀片 × 8 GPU),全液冷设计,功耗约 600kW,机架内互连成本降低 90%、功耗降低 72%

远期规划
05 — 技术演进

NPOCPO 的三级跳

英伟达的光互联技术并非一蹴而就,而是从可插拔到近封装再到共封装的渐进式演进

阶段 1
🔌

可插拔光模块

Pluggable Optics

光模块独立于芯片,通过连接器插入交换机面板,电信号需经 10-20cm PCB 传输

现有数据中心主流方案
阶段 2
📍

近封装光学 NPO

Near-Packaged Optics

光引擎紧邻芯片放置但未完全集成,作为 CPO 的过渡形态,部分早期 Quantum-X 版本采用

过渡方案 · 2025年
阶段 3
📦

共封装光学 CPO

Co-Packaged Optics

光引擎直接集成于芯片封装内部,与台积电合作突破封装工艺,实现真正的芯片级光互联

目标方案 · 2026-2027年
Pluggable
10-20cm
NPO
5-10mm
CPO
1-2mm
XPU 侧 CPO
片上集成
🔮
2027 展望

下一步:GPU 侧 CPO — Kyber NVL576

CPO 技术从网络交换机侧扩展至 GPU 封装。据 IEDM 2025 报告,计划于 2027 年推出的 Kyber NVL576 将采用该技术,实现单机架 576 GPU 的超密度计算。

▼ Kyber 单机架架构
Canister 1
18 刀片 × 8 GPU
144
Canister 2
18 刀片 × 8 GPU
144
Canister 3
18 刀片 × 8 GPU
144
Canister 4
18 刀片 × 8 GPU
144
单机架合计:4 × 144 = 576 颗 Rubin Ultra GPU
90%
机架内互连成本降低
72%
互连功耗降低
600kW
单机架功耗 · 全液冷
1 Rack
单机架完整 NVL576 域
▼ 单颗 Rubin Ultra GPU 性能等效估算

基于 NVIDIA 路线图各代 AI 算力提升趋势(H100 → B200: ~2.5× → B300: ~2× → Rubin: ~2× → Rubin Ultra: ~2×),累计约 20× 提升

GPU 型号 FP8 (TFLOPS) 显存 1 颗 Rubin Ultra ≈
H100 SXM ~3,958 80GB HBM3 ≈ 20~30 颗 H100
H800 ~3,958(NVLink 削减) 80GB HBM3 ≈ 20~30 颗 H800
H200 ~3,958 141GB HBM3e ≈ 20~30 颗 H200(算力维度)
▼ GPU 显存代际演进
GPU 代际 显存类型 单颗容量 内存带宽
H100 HBM3 80 GB 3.35 TB/s
H200 HBM3e 141 GB 4.8 TB/s
B200 (Blackwell) HBM3e 192 GB ~8 TB/s
B300 (Blackwell Ultra) HBM3e 288 GB ~12 TB/s
Rubin Ultra HBM4e ~512 GB(估) ~20+ TB/s(估)
▼ Kyber NVL576 整体算力与显存
纯 FLOPS 等效
~11,520
颗 H100 / H800
576 × 20 = 11,520
考虑互联效率后
15,000~20,000+
颗 H800 等效
NVLink 统一内存域加成
总统一显存池
~288 TB
576 × 512GB
HBM4e 统一内存域
▸ 系统级显存对比
DGX H100 (8卡)
640 GB
GB200 NVL72
~13.5 TB
Kyber NVL576
~288 TB

💡 为何实际等效更高? NVL576 通过 CPO + NVLink 实现 576 颗 GPU 的统一内存域,扩展效率远超传统 InfiniBand/以太网集群(大规模训练通信开销可降低 50% 以上)。H800 因 NVLink 带宽被削减至 400 GB/s(仅为 H100 的 44%),多卡扩展劣势更大,因此 NVL576 相对 H800 集群的实际优势更为显著。

⚠️ 注:每个 canister 后端还配备 6 个 NVLink Switch 刀片 + 2 个管理刀片。跨 canister 的完整 NVLink 互联方案尚未完全披露,当前可视为 NVL72 × 4 的组合。以上性能等效为基于路线图趋势的估算,实际数据以 NVIDIA 官方发布为准。

06 — 总结

光电共舞,算力无疆

CPO 是英伟达应对 AI 算力指数级增长的关键武器

通过"光电共封装"的方式,CPO 技术从根本上解决了高速数据传输中的能耗与物理瓶颈,是构建下一代千兆瓦级 AI 工厂不可或缺的底层技术。

🔬
技术突破
芯片级光互联 电信号路径缩短 100 倍
🌱
绿色节能
功耗降低 70% 助力可持续 AI 基础设施
📦
产品就绪
2026 年规模部署 双平台产品矩阵
🚀
持续演进
从交换机到 GPU 2027 年实现 XPU 侧 CPO
现在能买到吗?
暂时还没有现货
产业链正处于量产准备阶段
技术落地了吗?
已发布,2026 正式上市
合作伙伴已确认部署计划