AMD vs Nvidia = 倚天 vs 屠龍?

 MI300A 是 AMD 首款結合了 Zen 4 CPU 與 CNDA 3 GPU 的產品, 也是市場上首款 "CPU+GPU+記憶體" 一體化產品. MI300 採用 3D 堆疊技術和 Chiplet 設計, 配備了 9 個基於 5nm 制程的晶片組 (據 PCgamers 推測, 包括 3 個 CPU 和 6 個 GPU), 置於 4 個基於 6nm 制程的晶片組之上.


與 MI300A 不同的是, MI300X 移除了 MI300A 上原有的 CPU chiplets, 成為了純 GPU 產品. MI300X 同樣基於 CDNA 3, 擁有 192GB 的 HBM3 DRAM, 5.2TB/s 的記憶體帶寬, Infinity Fabric 帶寬 896GB/s 和 1530 億個晶體管, 同樣採用 5nm 和 6nm 的制程並含 13 個 chiplets.


從封裝方案看, MI300 系列都使用了台積電 SoIC (3D) 和 CoWoS (2.5D) 兩種封裝技術,相比 Nvidia 的 H100 和 GH200 則只採用 CoWoS 封裝技術. 3D Chiplet 封裝技術具有提高性能, 降低延遲和功耗的優點, 也可彌補 x86 架構相較 ARM 架構在 AI 應用中的能耗問題.


MI300 的 3D Chiplet 架構使其內部 CPU 和 GPU 可共享同一記憶體空間, 針對相同數據同時展開計算, 實現 "zero-copy", 便利單節點內 GPU-CPU 之間的數據傳輸, 減少記憶體帶寬的占用. 而 Nvidia Grace Hopper 則通過 NVLink-C2C 實現 GPU-CPU 高速互聯.


AMD 雖未公布 MI300 HBM 的更多信息, 但最新代 HBM3 帶寬約為 819GB/s, 與 Nvidia NVLink C2C 900GB/s 帶寬相差不大. 因此 MI300 內 GPU-CPU 的統一架構可繞過傳統連接協議速度的障礙, 突破 GPU-CPU 之間的數據傳輸速度限制, 滿足未來 AI 訓練和推理中由模型大小和參數提升帶來的海量數據計算和傳輸需要.


GH200 集成了 Nvidia 最先進的加速計算和網絡技術, 為提供最大的吞吐量和可擴展性而設計. NVLink-C2C 將 CPU 與 GPU 相連組成 GH200 超級芯片, 它們再通過 NVLink Switch System 組成高帶寬的多 GPU 系統, 每個 Grace Hopper 超級晶片還配有一個 ConnectX-7 和一個  BlueField-3 NIC.


通過將 Nvidia GH200 和 MI300 進行對比,我們認為 MI 300 還有許多參數有待後續公布, 但從算力, 記憶體等指標上有望和 Nvidia 實現對標, 但在架構, 制程和晶體管數量上仍與 Nvidia GH 200 存在一定差距.

Nvidia Spectrum-X 是全球首個面向 AI 的乙太網網絡平台. Spectrum-X 基於網絡創新, 將 Nvidia Spectrum-4  乙太網交換機與 Nvidia BlueField-3 DPU 緊密耦合, 實現了相比傳統乙太網結構 1.7 倍的整體 AI 性能和能效提升.


Nvidia  MGX 是提供加速伺服器的模組化架構, 滿足全球數據中心多樣化的加速運算需求. 永擎 (華擎子公司), 華碩, 技嘉, 和碩, 廣達 和 Supermicro 將採用 MGX, 它可將開發成本削減四分之三, 並將開發時間縮短三分之二.


Nvidia CUDA構築軟件業務底層框架基石, 打造高兼容性的 GPU 通用平台. CUDA 形成的壁壘短期內 AMD ROCm 無法打破, 成為 Nvidia 與 AMD 市場份額差距的重要影響因素.  ROCm 缺少類似於 CUDA 的社區支持和成熟的生態體系.


Nvidia Transformer Engine 利用軟件和定制的 Hopper Tensor Core 技術來加速 Transformer模型的訓練和推斷, 這是目前主流的人工智能模型構建基塊. 這些 Tensor Core 現在可以動態智能地應用混合 FP8 和 FP16 格式, 無性能或準確性損失, 從而大幅增加 Transformer模型的AI計算能力.


留言

  1. AMD新AI晶片找到客戶了?亞馬遜AWS考慮中!但為何打不過Nvidia,關鍵在這技術
    https://www.bnext.com.tw/article/75667/amd-data-center-ai-technology

    回覆刪除
  2. AMD將布AI晶片最新細節 挑戰Nvidia
    https://news.cnyes.com/news/id/5212754

    回覆刪除
  3. 都推出怪物級 AI 晶片了,為何 AMD 仍被說打不過 NVIDIA?
    https://buzzorange.com/techorange/2023/06/14/amd-2023-ai/

    回覆刪除
  4. NVIDIA太強 AMD最強顯示卡尚無客戶採購 軟體贏不過
    https://news.xfastest.com/others/129477/amd-instinct-mi300a-mi300x/

    回覆刪除
  5. AMD Instinct MI300X AI 加速器功耗高達 750W
    https://jctechspace.com/amd-pushes-gpu-power-closer-to-1kw-with-its-instinct-mi300x-gpu-consumes-750w/

    回覆刪除
  6. 雲端服務商投資 AI 預算沒想像寬裕?中國支出萎縮
    https://technews.tw/2023/06/15/amd-nvidia-face-tight-budgets-from-cloud-service-providers-even-as-ai-grows/

    回覆刪除
  7. AMD发起AI芯片挑战 但英伟达依然独孤求败
    https://www.cnbeta.com.tw/articles/tech/1365405.htm

    回覆刪除

張貼留言