英伟达 CPO 共封装光学技术与 Kyber NVL576

01 — 技术核心

从"插拔"到"封装"

CPO 技术彻底重构了数据中心的光电互联架构，将光引擎直接集成于芯片封装内部

⛔ 传统可插拔方案

🔌

可插拔光模块

数据从芯片出发，经过 10-20cm 的 PCB 电路板才到达光模块，信号损耗巨大、功耗高昂

单端口功耗 20-30W

→

✅ CPO 共封装方案

📦

芯片级光互联

光引擎与 ASIC/GPU 直接封装于同一基板，电信号传输距离仅 1-2mm，功耗大幅降低

单端口功耗 ≈ 9W

📐

物理集成

将光引擎（负责光电转换）直接与交换芯片（ASIC）或 GPU 封装在同一个基板上，消除了传统插拔接口的物理限制。

⚡

距离革命

电信号传输距离从传统的 10-20 厘米缩短至 1-2 毫米，实现真正的"芯片级光互联"，信号完整性大幅提升。

▼ 传统方案信号路径

🧠

计算芯片

→

📏

PCB 10-20cm

→

🔌

可插拔光模块

→

💡

光纤网络

▼ CPO 方案信号路径

🧠

计算芯片

⇢

📦

1-2mm 共封装

→

💡

光纤网络

02 — 核心优势

解决 AI 工厂的四大痛点

面向千兆瓦级 AI 工厂，CPO 在功耗、带宽、可靠性、延迟四个维度带来颠覆性提升

性能维度	传统方案	CPO 方案	提升效果
⚡ 功耗	单端口 20-30W	单端口 ≈ 9W	↓ 降低 60%-70%
📶 带宽密度	端口密度 ≤ 64×400G	端口密度 512×800G	↑ 带宽提升 16 倍
🛡️ 可靠性	插拔易受污染/故障	减少组件数量	↑ 提升 10 倍
⏱️ 延迟	信号路径长	路径极短（1-2mm）	↓ 降低 50%

📊 功耗对比

传统方案25W / 端口

CPO 方案9W / 端口

节省 64% 能耗

📊 信号路径长度

传统方案150mm（15cm）

CPO 方案1.5mm

缩短 100 倍

🔋

极致节能

单端口功耗从 25W 降至 9W，千端口交换机年节电超 14 万度

🚀

超高带宽

原生支持 800G/1.6T 速率，总交换带宽可达 409.6 Tb/s

🛡️

高可靠性

消除插拔接口，减少组件数量，系统可靠性提升 10 倍

⚡

超低延迟

信号路径缩短 100 倍，端到端延迟降低 50%

03 — 产品布局

英伟达 CPO 产品矩阵

覆盖以太网与 InfiniBand 双架构，构建"数据中心即计算机"的 AI 基础设施

🏭

AI 工厂

→

🌐

CPO 网络层

→

📡

Spectrum-X / Quantum-X

→

🧠

GPU 集群互联

Spectrum-X Photonics

Ethernet 以太网

面向以太网架构的 CPO 交换平台，专为生成式 AI 大规模集群设计，实现超高密度光互联

128 至 512 个 800Gb/s 端口
总交换带宽高达 409.6 Tb/s
专为生成式 AI 工作负载优化
支持 RoCE v2 高性能以太网
与 NVIDIA BlueField DPU 深度集成

🎯 定位：大规模多租户 AI 云

Quantum-X Photonics

InfiniBand

面向 InfiniBand 架构的 CPO 交换平台，采用硅光引擎与液冷技术，追求极致性能

144 个 800Gb/s 端口
采用硅光子（Silicon Photonics）引擎
集成先进液冷散热技术
超低延迟 InfiniBand 互联
英伟达首款 CPO 交换机

🎯 定位：超大规模 AI 训练集群

对比项	Spectrum-X Photonics	Quantum-X Photonics
网络协议	以太网 (Ethernet)	InfiniBand
端口数量	128 – 512 × 800G	144 × 800G
总带宽	409.6 Tb/s	115.2 Tb/s
光引擎	CPO 光模块	硅光子引擎
散热方式	风冷 / 液冷	液冷
典型场景	多租户 AI 云 / 推理	大规模 AI 训练

04 — 上市时间表

2026：CPO 商用元年

英伟达已明确将 2026 年作为 CPO 技术的规模部署元年，产业链已进入实质性量产准备阶段

Quantum-X Photonics

已发布

InfiniBand 架构 · 英伟达首款 CPO 交换机

📅 发布时间

2025年3月 GTC 大会

🚀 规模部署

2026年上半年（CoreWeave、Lambda 等已确认）

Spectrum-X Photonics

待出货

Ethernet 架构 · 面向多租户 AI 云

📅 发布时间

2025年 GTC 大会

🚀 计划出货

2026年下半年

▼ CPO 技术发展路线图

2025 Q1

GTC 2025 正式发布

Quantum-X Photonics 与 Spectrum-X Photonics 在 GTC 大会亮相，标志着英伟达 CPO 技术正式进入产品化阶段

已完成

2025 H2

小规模验证部署

合作伙伴开始小规模试用 Quantum-X，验证 CPO 在真实 AI 训练场景中的性能与可靠性

进行中

2026 H1

Quantum-X 规模部署

CoreWeave、Lambda 等合作伙伴大规模部署 InfiniBand CPO 交换机，CPO 商用正式启动

即将到来

2026 H2

Spectrum-X 开始出货

以太网 CPO 交换机量产出货，覆盖多租户 AI 云和大规模推理场景

计划中

2027

GPU 侧 CPO · Kyber NVL576

CPO 技术从交换机扩展至 GPU 封装。Kyber 单机架集成 576 颗 GPU（4 canister × 18 刀片 × 8 GPU），全液冷设计，功耗约 600kW，机架内互连成本降低 90%、功耗降低 72%

远期规划

05 — 技术演进

从 NPO 到 CPO 的三级跳

英伟达的光互联技术并非一蹴而就，而是从可插拔到近封装再到共封装的渐进式演进

阶段 1

🔌

可插拔光模块

Pluggable Optics

光模块独立于芯片，通过连接器插入交换机面板，电信号需经 10-20cm PCB 传输

现有数据中心主流方案

阶段 2

📍

近封装光学 NPO

Near-Packaged Optics

光引擎紧邻芯片放置但未完全集成，作为 CPO 的过渡形态，部分早期 Quantum-X 版本采用

过渡方案 · 2025年

阶段 3

📦

共封装光学 CPO

Co-Packaged Optics

光引擎直接集成于芯片封装内部，与台积电合作突破封装工艺，实现真正的芯片级光互联

目标方案 · 2026-2027年

Pluggable

10-20cm

→

NPO

5-10mm

→

CPO

1-2mm

→

XPU 侧 CPO

片上集成

🔮

2027 展望

下一步：GPU 侧 CPO — Kyber NVL576

CPO 技术从网络交换机侧扩展至 GPU 封装。据 IEDM 2025 报告，计划于 2027 年推出的 Kyber NVL576 将采用该技术，实现单机架 576 GPU 的超密度计算。

▼ Kyber 单机架架构

Canister 1

18 刀片 × 8 GPU

144

Canister 2

18 刀片 × 8 GPU

144

Canister 3

18 刀片 × 8 GPU

144

Canister 4

18 刀片 × 8 GPU

144

单机架合计：4 × 144 = 576 颗 Rubin Ultra GPU

90%

机架内互连成本降低

72%

互连功耗降低

600kW

单机架功耗 · 全液冷

1 Rack

单机架完整 NVL576 域

▼ 单颗 Rubin Ultra GPU 性能等效估算

基于 NVIDIA 路线图各代 AI 算力提升趋势（H100 → B200: ~2.5× → B300: ~2× → Rubin: ~2× → Rubin Ultra: ~2×），累计约 20× 提升

GPU 型号	FP8 (TFLOPS)	显存	1 颗 Rubin Ultra ≈
H100 SXM	~3,958	80GB HBM3	≈ 20~30 颗 H100
H800	~3,958（NVLink 削减）	80GB HBM3	≈ 20~30 颗 H800
H200	~3,958	141GB HBM3e	≈ 20~30 颗 H200（算力维度）

▼ GPU 显存代际演进

GPU 代际	显存类型	单颗容量	内存带宽
H100	HBM3	80 GB	3.35 TB/s
H200	HBM3e	141 GB	4.8 TB/s
B200 (Blackwell)	HBM3e	192 GB	~8 TB/s
B300 (Blackwell Ultra)	HBM3e	288 GB	~12 TB/s
Rubin Ultra	HBM4e	~512 GB（估）	~20+ TB/s（估）

▼ Kyber NVL576 整体算力与显存

纯 FLOPS 等效

~11,520

颗 H100 / H800

576 × 20 = 11,520

考虑互联效率后

15,000~20,000+

颗 H800 等效

NVLink 统一内存域加成

总统一显存池

~288 TB

576 × 512GB

HBM4e 统一内存域

▸ 系统级显存对比

DGX H100 (8卡)

640 GB

GB200 NVL72

~13.5 TB

Kyber NVL576

~288 TB

💡 为何实际等效更高？ NVL576 通过 CPO + NVLink 实现 576 颗 GPU 的统一内存域，扩展效率远超传统 InfiniBand/以太网集群（大规模训练通信开销可降低 50% 以上）。H800 因 NVLink 带宽被削减至 400 GB/s（仅为 H100 的 44%），多卡扩展劣势更大，因此 NVL576 相对 H800 集群的实际优势更为显著。

⚠️ 注：每个 canister 后端还配备 6 个 NVLink Switch 刀片 + 2 个管理刀片。跨 canister 的完整 NVLink 互联方案尚未完全披露，当前可视为 NVL72 × 4 的组合。以上性能等效为基于路线图趋势的估算，实际数据以 NVIDIA 官方发布为准。

06 — 总结

光电共舞，算力无疆

CPO 是英伟达应对 AI 算力指数级增长的关键武器

通过"光电共封装"的方式，CPO 技术从根本上解决了高速数据传输中的能耗与物理瓶颈，是构建下一代千兆瓦级 AI 工厂不可或缺的底层技术。

🔬

技术突破

芯片级光互联电信号路径缩短 100 倍

🌱

绿色节能

功耗降低 70% 助力可持续 AI 基础设施

📦

产品就绪

2026 年规模部署双平台产品矩阵

🚀

持续演进

从交换机到 GPU 2027 年实现 XPU 侧 CPO

现在能买到吗？

暂时还没有现货

产业链正处于量产准备阶段

技术落地了吗？

已发布，2026 正式上市

合作伙伴已确认部署计划

CPO（Co-Packaged Optics）光模块与计算芯片直接封装 · Kyber NVL576

从"插拔"到"封装"

可插拔光模块

芯片级光互联

物理集成

距离革命

▼ 传统方案信号路径

▼ CPO 方案信号路径

解决 AI 工厂的四大痛点

📊 功耗对比

📊 信号路径长度

极致节能

超高带宽

高可靠性

超低延迟

英伟达 CPO 产品矩阵

2026：CPO 商用元年

Quantum-X Photonics

Spectrum-X Photonics

▼ CPO 技术发展路线图

GTC 2025 正式发布

小规模验证部署

Quantum-X 规模部署

Spectrum-X 开始出货

GPU 侧 CPO · Kyber NVL576

从 NPO 到 CPO 的三级跳

可插拔光模块

近封装光学 NPO

共封装光学 CPO

下一步：GPU 侧 CPO — Kyber NVL576

光电共舞，算力无疆

CPO 是英伟达应对 AI 算力指数级增长的关键武器

CPO（Co-Packaged Optics）
光模块与计算芯片直接封装 · Kyber NVL576