輝達 GB200/GB300 電源模組挑戰

預計於 2025年中推出的 GB300 NVL72 系統, 具有 12 層堆疊的 HBM3e (GB200 為8層堆疊), 因此功耗稍高. 單個 GB300 卡的功耗為 1.4kW, 而 GB200 卡的功耗為 1.2kW, 整個 GB300 NVL72 機架的功耗將達到 130+ kW, 而 GB200 則為120kW.


GB200 電源模組有三種: AC-DC, 48V-12V DC-DC, 12V-1V DC-DC (透過 VRM, 芯原系統主供, ). 資料中心, 交流電首先透過 GB200 機架上的電源裝置 (PSU) 轉換為 48V 直流電, 標準 GB200 NVL72 機架有六排電源架, 機架頂部三排, 底部三排, 每個電源架的高度為 1U, 包含 6 個 PSU, 每個機架總共有 6 x 6 = 36 個 PSU.


每個 PSU 提供 5.5kW 的功率, 因此所有 PSU 提供的總功率為 5.5 x 36 = 198kW. PSU 供應商為台達電 (主供) 和光寶, 中國麥格米特也正在接受驗證. GB200 NVL72 的總功耗是120kW, 出於冗餘目的, PSU 通常以其最大負載的 50-60% 進行配置.


48V 直流電進入每個計算托盤後, 電壓會透過電源模組降壓至 12V. 這裡有兩種模組選擇: Nvidia 在其 DGX 伺服器上使用 IBC (中間匯流排轉換器) 模組, 而最新的 GB200 伺服器則使用 PDB (配電板, 瑞薩獨供) 模組. 台達電最近透露, 他們失去了 GB200 電源模組中的一些單子, 指的是從 IBC 模組到 PDB 模組的轉變.


IBC 模組就是一組 DC-DC 轉換器. 傳統的 DGX 伺服器每個計算托盤有 8 個 IBC 模組, 每個模組對應一個 SXM 模組 (即一個 GPGPU), 價格約為 60 美元左右.  B200 DGX 伺服器仍將使用 IBC 模組, 但由於支援 1.2kW B200 GPU (相對於 H100/H200 GPU 的 0.7kW), 價格略高 (約 70 美元). 台達電, Emerson 和 Flex 是這裡主要的 IBC 供應商.


BBU 可以看作是傳統 UPS 的進階版本, 與使用鉛酸電池的 UPS 系統相比, 配備鋰電池的 BBU 具有壽命較長 (BBU 的產品預期壽命為 5-10 年, 是鉛酸電池的 2-3倍), 緊湊設計 (BBU 比傳統 UPS 佔用的空間減少 50-70%, 重量減輕 50-60%), 充電更快 (BBU 充電速度比 UPS 系統快5倍).


在 CSP 客戶測試 GB200 系統並注意到電源架電壓不穩定的情況後, 引入了超級電容器. 為了穩定電力負載突然增加或減少時的電壓波動, Nvidia 將超級電容器整合到能量儲存托盤 (Energy Storage Tray) 中. 目前, BBU 和 超級電容在 GB200 機架中是選購組件, 但在 GB300 機架中將成為標準組件.


Nvidia 的參考設計建議每排電源架至少配備一個 BBU 模組, 這些 BBU 在正常情況下由相應的電源架充電, 並且可以在突然停電時快速響應並更換電源架, 為計算托盤提供 48V 直流電源, 為伺服器資料備份提供 5-7分鐘的關鍵時間窗口.


冗餘要求較高的 CSP 客戶可以配置 8 排電源架設計, 包含 48 個 PSU, 搭配 8 個 BBU 模組. 雖然 BBU 架由電源架供應商提供, 但鋰電池模組實際上由台達電和光寶外包給台灣電池製造商, 例如順達 (主供) 和 AES-KY.


BBU 和超級電容器將被視為 GB300 系統的標準組件. 假設標準電源架設計為 4 x 6 = 24 個 13kW 的 PSU, 一個 GB300 NVL72 機架將至少需要 4 + 1 個 BBU 模組 (四個用於每個電源架, 一個作為冗餘). 根據供應鏈研究, 一個 BBU 模組的量產價格約為 300 美元,因此 GB300 系統中 BBUs 的總價值為 300 美元 x 5 = 1,500 美元.


與 BBU 類似, 削峰托盤 (peak-shaving tray, 即超級電容器) 也由電源架供應商提供, 但來源於第三方製造商. 目前, 唯一通過 Nvidia 認證的超級電容器供應商是歐洲的 Skeleton Technologies, 而日本公司如 Musashi Seimitsu, Panasonic 和 Taiyo Yuden (通過其子公司 Elna) 仍在通過台達電和光寶進行 Nvidia 認證過程.


根據供應鏈研究. 一個 GB300 NVL72 機架需要 300~350 個超級電容器. 每個超級電容器的量產價格約為 20 到 25 美元, 這使得 GB300 系統中超級電容器的總價值約為 7,000 到 7,500 美元. 2023年全球超級電容器市場規模為25.0億美元, 預計將從 2024年的 29.4億美元增加到 2034年的約 147.4億美元, CAGR為 17.50%.


原文網站: 
1, Is Monolithic Power System (MPWR US) a Short? – The GB200 Power Module War
2, NVIDIA (NVDA US) GB300 Power System – An Overview of new PSU, BBU, and Super Capacitor Design

留言

  1. 日電貿:AI帶動電容用量顯增;EDLC客戶測試中
    https://today.line.me/tw/v2/article/LX9O77j

    回覆刪除
  2. AI伺服器明年出貨量成長率上看28% 台廠齊推新品搶攻商機
    https://news.cnyes.com/news/id/5787978

    回覆刪除
  3. 輝達供應鏈異動 郭明錤曝關鍵贏家 這台廠要緊張了
    https://www.ctee.com.tw/news/20241127701148-430502

    回覆刪除
  4. 英伟达震撼入驻道指!关注NV链第一充分受益弹性标的!
    https://www.jiuyangongshe.com/a/3470p46ten

    回覆刪除
  5. NVIDIA AI GPU 伺服器:PCIe 與 SXM
    https://www.fibermall.com/blog/nvidia-ai-gpu-server-pcie-vs-sxm.htm

    回覆刪除

張貼留言