突破 AI 数据中心的能耗与带宽瓶颈
CPO 技术彻底重构了数据中心的光电互联架构,将光引擎直接集成于芯片封装内部
数据从芯片出发,经过 10-20cm 的 PCB 电路板才到达光模块,信号损耗巨大、功耗高昂
光引擎与 ASIC/GPU 直接封装于同一基板,电信号传输距离仅 1-2mm,功耗大幅降低
将光引擎(负责光电转换)直接与交换芯片(ASIC)或 GPU 封装在同一个基板上,消除了传统插拔接口的物理限制。
电信号传输距离从传统的 10-20 厘米缩短至 1-2 毫米,实现真正的"芯片级光互联",信号完整性大幅提升。
面向千兆瓦级 AI 工厂,CPO 在功耗、带宽、可靠性、延迟四个维度带来颠覆性提升
| 性能维度 | 传统方案 | CPO 方案 | 提升效果 |
|---|---|---|---|
| ⚡ 功耗 | 单端口 20-30W | 单端口 ≈ 9W | ↓ 降低 60%-70% |
| 📶 带宽密度 | 端口密度 ≤ 64×400G | 端口密度 512×800G | ↑ 带宽提升 16 倍 |
| 🛡️ 可靠性 | 插拔易受污染/故障 | 减少组件数量 | ↑ 提升 10 倍 |
| ⏱️ 延迟 | 信号路径长 | 路径极短(1-2mm) | ↓ 降低 50% |
单端口功耗从 25W 降至 9W,千端口交换机年节电超 14 万度
原生支持 800G/1.6T 速率,总交换带宽可达 409.6 Tb/s
消除插拔接口,减少组件数量,系统可靠性提升 10 倍
信号路径缩短 100 倍,端到端延迟降低 50%
覆盖以太网与 InfiniBand 双架构,构建"数据中心即计算机"的 AI 基础设施
面向以太网架构的 CPO 交换平台,专为生成式 AI 大规模集群设计,实现超高密度光互联
面向 InfiniBand 架构的 CPO 交换平台,采用硅光引擎与液冷技术,追求极致性能
| 对比项 | Spectrum-X Photonics | Quantum-X Photonics |
|---|---|---|
| 网络协议 | 以太网 (Ethernet) | InfiniBand |
| 端口数量 | 128 – 512 × 800G | 144 × 800G |
| 总带宽 | 409.6 Tb/s | 115.2 Tb/s |
| 光引擎 | CPO 光模块 | 硅光子引擎 |
| 散热方式 | 风冷 / 液冷 | 液冷 |
| 典型场景 | 多租户 AI 云 / 推理 | 大规模 AI 训练 |
英伟达已明确将 2026 年作为 CPO 技术的规模部署元年,产业链已进入实质性量产准备阶段
InfiniBand 架构 · 英伟达首款 CPO 交换机
Ethernet 架构 · 面向多租户 AI 云
Quantum-X Photonics 与 Spectrum-X Photonics 在 GTC 大会亮相,标志着英伟达 CPO 技术正式进入产品化阶段
已完成合作伙伴开始小规模试用 Quantum-X,验证 CPO 在真实 AI 训练场景中的性能与可靠性
进行中CoreWeave、Lambda 等合作伙伴大规模部署 InfiniBand CPO 交换机,CPO 商用正式启动
即将到来以太网 CPO 交换机量产出货,覆盖多租户 AI 云和大规模推理场景
计划中CPO 技术从交换机扩展至 GPU 封装。Kyber 单机架集成 576 颗 GPU(4 canister × 18 刀片 × 8 GPU),全液冷设计,功耗约 600kW,机架内互连成本降低 90%、功耗降低 72%
远期规划英伟达的光互联技术并非一蹴而就,而是从可插拔到近封装再到共封装的渐进式演进
光模块独立于芯片,通过连接器插入交换机面板,电信号需经 10-20cm PCB 传输
光引擎紧邻芯片放置但未完全集成,作为 CPO 的过渡形态,部分早期 Quantum-X 版本采用
光引擎直接集成于芯片封装内部,与台积电合作突破封装工艺,实现真正的芯片级光互联
CPO 技术从网络交换机侧扩展至 GPU 封装。据 IEDM 2025 报告,计划于 2027 年推出的 Kyber NVL576 将采用该技术,实现单机架 576 GPU 的超密度计算。
基于 NVIDIA 路线图各代 AI 算力提升趋势(H100 → B200: ~2.5× → B300: ~2× → Rubin: ~2× → Rubin Ultra: ~2×),累计约 20× 提升
| GPU 型号 | FP8 (TFLOPS) | 显存 | 1 颗 Rubin Ultra ≈ |
|---|---|---|---|
| H100 SXM | ~3,958 | 80GB HBM3 | ≈ 20~30 颗 H100 |
| H800 | ~3,958(NVLink 削减) | 80GB HBM3 | ≈ 20~30 颗 H800 |
| H200 | ~3,958 | 141GB HBM3e | ≈ 20~30 颗 H200(算力维度) |
| GPU 代际 | 显存类型 | 单颗容量 | 内存带宽 |
|---|---|---|---|
| H100 | HBM3 | 80 GB | 3.35 TB/s |
| H200 | HBM3e | 141 GB | 4.8 TB/s |
| B200 (Blackwell) | HBM3e | 192 GB | ~8 TB/s |
| B300 (Blackwell Ultra) | HBM3e | 288 GB | ~12 TB/s |
| Rubin Ultra | HBM4e | ~512 GB(估) | ~20+ TB/s(估) |
💡 为何实际等效更高? NVL576 通过 CPO + NVLink 实现 576 颗 GPU 的统一内存域,扩展效率远超传统 InfiniBand/以太网集群(大规模训练通信开销可降低 50% 以上)。H800 因 NVLink 带宽被削减至 400 GB/s(仅为 H100 的 44%),多卡扩展劣势更大,因此 NVL576 相对 H800 集群的实际优势更为显著。
⚠️ 注:每个 canister 后端还配备 6 个 NVLink Switch 刀片 + 2 个管理刀片。跨 canister 的完整 NVLink 互联方案尚未完全披露,当前可视为 NVL72 × 4 的组合。以上性能等效为基于路线图趋势的估算,实际数据以 NVIDIA 官方发布为准。
通过"光电共封装"的方式,CPO 技术从根本上解决了高速数据传输中的能耗与物理瓶颈,是构建下一代千兆瓦级 AI 工厂不可或缺的底层技术。