Nvidia 推出了其內部介面 NVLink, 專門用於 GPU 到 GPU 的連接. NVLink 現已進入第五代, 與 PCIe 相比具有優勢, 包括: 1) 更高的頻寬; 2) 更低的延遲; 3) 更高的功率效率; 4) 統一記憶體訪問 (使 GPU 能夠直接存取彼此的記憶體, 從而提高數據共用效率). NVLink 實現更高頻寬的原因是它可以包含更多通道, 即使每個通道的頻寬與 PCIe 相當.
NVL72 是 Nvidia 開發的高性能計算系統, 旨在增強 AI 訓練和推理能力. 它在單個機架中集成了 72 個 Blackwell GPU (B200) 和 36 個 Grace CPU, 並通過 Nvidia 的第五代 NVLink 技術互連, 此配置可以高效處理大規模 AI 模型.
每個 B200 GPU 都帶有 18 個通信通道, 每個通道提供 100GB/s 的頻寬, 因此每個 GPU 的雙向頻寬總計為 1.8 TB/s. 根據 Nvidia 的說法, 這種 GPU 到 GPU 的輸送量是 PCIe Gen-5 頻寬的 14 倍多. 為了互連這些支援 NVLink 的 GPU, 系統採用了 NVSwitches. (224Gb SerDes=200Gb, 4差分對 = 800Gb =100GB, 18 通道 = 1.8TB)
NVL 72 一個機架還使用大約 5,000 個 ACC 在 GPU 之間以及 GPU 和 NVSwitch 之間建立 NVLink 連接. 每個 GPU 通道與 4 個 ACC 配對, 因此總共有 4 個 ACC x 每個 GPU 18 個通道 x 72 個 GPU = 5184 個 ACC. (最近傳出GB200 背板銅纜主供安費諾 224G 規格部分良率有問題?! )
光模組 + 光纜組合通常用於長距離傳輸. 然而, 對於短距離通信, 銅纜通常是更具成本效益的解決方案. 例如, 在 NVL72 和 NVL36 機架中, 一種銅纜用於直接連接到 GPU 上的 NVLink 埠, 支援高速 GPU 到 GPU 通信. 資料中心使用的銅纜主要有三種類型 DAC, ACC, AEC 以下分別說明.
DAC (Direct Attach Copper): 是被動銅纜. 由於它們沒有內置晶片來放大, 補償或調整信號, 因此它們的有效傳輸距離受到限制. 在 100 Gbps 的速度下, 它們的範圍通常約為 1 米, 最大為 2 米, 這限制了它們在當今日益複雜的數據中心系統中的可用性.
ACC (Active Copper Cable): 是在 DAC 兩端整合 EQ 晶片的主動銅纜. EQ 晶片可補償信號損失, 增加有效傳輸距離. 在 100 Gbps 時, ACC 可以在 3-4 米範圍內有效傳輸, 而對於 200 Gbps, 範圍為 2-3 米. 這使得 ACC 成為 NVDA NVL72 機架內或相鄰機架之間連接的絕佳選擇.
AEC (Active Electrical Cable): 它們本質上是在銅纜兩端添加 DSP 的 ACC. 由於 DSP 功能, AEC 不僅可以對信號進行放大, 還可以優化和重塑信號, 從而進一步增強其有效傳輸距離. 在 100 Gbps 時, AEC 可靠地支援 5-10 米距離的傳輸, 而在 200 Gbps 時, 它們可以實現大約 3 米的傳輸, 在某些情況下甚至可以實現 5 米的傳輸.
在性能方面, DSP > 重定時器 > 轉接驅動器, 因此 AEC 性能 > ACC > DAC. 更好的性能意味著銅纜可以做得更細, 並且在相同的數據傳輸速度下, 銅纜的傳輸距離可以更長. 在價格方面 AEC > ACC > DAC. 在實際使用場景中, CSP 客戶會根據距離和所需的數據傳輸速度選擇合適的銅纜類型.
AEC 支援更長的距離和更大的相容性, 為什麼 Nvidia 選擇使用 ACC 用於機架互連? 有幾個主要考慮因素: 1) 成本: 一根 800G AEC 電纜是同等 ACC 的數倍. 2) 功耗: AEC 每通道消耗遠高於 ACC. 3) 延遲: DSP 的延遲遠大於 EQ 晶片. 4) 物理尺寸: AEC 的直徑比 ACC 大. 5) 相容性: ACC 的主要弱點 "相容性" 在封閉的輝達系統中問題不大.
每個 ACC 包含 8 個 EQ 晶片, 每端 4 個, 對於放大信號和減少 ACC 傳輸中的信號損失至關重要. 雖然製造起來並不太複雜, 但要實現高 ACC 性能需要精確的設計和生產控制, 以最大限度地減少放大過程中的信號失真. 目前 Macom 獨家為 NVL72/36 機架中使用的 1.6T ACC 提供 EQ 晶片.
全球主動源銅纜 (ACC) 市場預計在 2024-2029 預測期內複合年成長率為 4.21%. 在資料中心市場, 由於雲端服務和數位轉型的需求, 超大規模資料中心的建置正在迅速增加, 北美是全球最大的的市場. 市調 GII 也提到今年台灣宏致 (連接器) 與美國 Spectra7 Microsystems (小型類比半導體公司) 合作推出 800G ACC 產品.
參考資料
1, Deep Dive: Data Center Networking.
2, Macom (MTSI US) – A Hidden Nvidia GB200 Play (updated version).
3, Credo (CRDO US) – A Hidden ASIC Server Play.
英伟达GB200专家交流
回覆刪除https://finance.sina.com.cn/stock/stockzmt/2024-12-08/doc-incyumnp3391835.shtml
英伟达GB200机架真相揭秘:产能瓶颈与未来展望
回覆刪除https://www.sohu.com/a/834404604_121798711
Microsoft Cuts GB200 Orders! NVIDIA's GB200 Mass Production Delayed Again!
回覆刪除https://semiwiki.com/forum/index.php?threads/microsoft-cuts-gb200-orders-nvidias-gb200-mass-production-delayed-again.21589/
宏致官網
回覆刪除https://www.acesconn.com/tw/news_detail?id=61
貿聯 攻AI資料中心商機
回覆刪除https://udn.com/news/story/7253/7746488
佳必琪官網
回覆刪除https://www.jpcco.com/lang/tw/solution/DNT/AI_GPU_Server
集邦:需更多時間調校優化 輝達GB200放量恐延後一季
回覆刪除https://money.udn.com/money/amp/story/12926/8432274
鴻騰以2.2億人幣收購華雲光電7成股權 拓光通訊布局
回覆刪除https://m.moneydj.com/f1a.aspx?a=0e786a34-c3ee-490a-82d4-eec0db104bfa
光聖光被動元件能見度佳,部分訂單挺進Q4
回覆刪除https://www.moneydj.com/kmdj/news/newsviewer.aspx?a=31eaeeaa-fdb0-4098-bdae-70133d294f0d
奇景與上詮光纖通訊合作的LPO/CPO業務也表現出色,目前處於初期小量試產階段
回覆刪除https://www.moneydj.com/kmdj/news/newsviewer.aspx?a=ebeea895-26c4-4069-b884-cb11eb077ea6