RDMA 解決傳統乙太網路的性能瓶頸

 超以太網聯盟 (UEC) 於 2023 成立, 目標是超越現有的乙太網功能, 以 RDMA 和 RoCE 等提供面向 HPC 和 AI 計算的高性能, 分布式和無損傳輸層, 其初創成員包括 AMD, Arista, 博通, 思科, Eviden, HPE, Intel, Meta 和微軟. 預計 UEC 正式規範 1.0 白皮書將在 24Q3 發布.


RDMA 有助於減少 CPU 工作負載, 因為它將所有傳輸通信任務從 CPU 卸載到硬件, 並在不涉及 CPU 的情況下為應用程序提供直接內存訪問.  RoCE 允許 RDMA 在乙太網上運行. 支持更高的吞吐量, 更低的延遲和更低的 CPU 利用率, 這對於 AI/ML, 存儲和HPC  應用程序至關重要.


盡管 Nvidia 是 InfiniBand 的主要推動者及供應商, 但也持續在 RoCE 方向布局, 相比於InfiniBand, RoCE v2 網絡解決方案在靈活性和成本效益上展現出更多優勢. 該技術不僅能夠構建高性能的 RDMA (遠程直接內存訪問) 網絡環境, 同時還能無縫融入傳統乙太網架構中. 


2020 年以來, Meta 始終致力於運營基於 RoCE 的分布式訓練集群. 為實現 RoCE 的 AI 計算應用落地, Meta 作為創始成員成立超以太網聯盟, 並積極推進 RoCE 的部署. 公司使用Arista和 Wedge 等組成的 RoCE 網絡能夠實現 400G 互連, 現已成功運用於 Llama3 集群.


RDMA 相比傳統 TCP/IP 技術更符合 AI 計算高並發, 低延遲的要求, 是更優選. 和之前的 TCP/IP 軟硬件架構相比, RDMA 使得通信系統直接通過網卡訪問 GPU 顯存數據, 流程無需經過操作系統或 CPU, 這種高吞吐, 低延遲的網絡通信非常適合在大規模並行 AI 計算集群中使用.


 Nvidia Spectrum-X 在這一類別中表現出色. 與傳統乙太網路相比, 它的有效頻寬提高了 4 倍以上, 延遲降低了 4 倍以上.  關鍵在於傳統乙太網路雖然支援 RDMA, 但 Spectrum-X 額外支援 RDMA 二分法 (bisection).


目前支持 RDMA 的網絡有 Infiniband, RoCE, iWARP. Infiniband: 需要 IB 網卡和交換機支持, 成本高昂. RoCE: 可以使用普通的乙太網交換器, 但需要專門支持 RoCE 的網卡. iWARP: 可以使用普通的乙太網交換器, 但需要專門支持 iWARP 的網卡.


AI 雲基礎設施, 需要支持大量用戶和並行運行的應用程序或工作流. 這些用戶和應用程序會爭奪基礎設施的共享資源, 從而可能相互影響性能. Nvidia Spectrum-X 平台結合了多種機制來實現性能隔離, 確保一個工作負載不會影響另一個工作負載的性能, 網絡平均帶寬是傳統乙太網兩倍.


交換器晶片支持的容量叠代提升是必然趨勢, 博通 Tomahawk 5 總容量達 51.2T 相比上代翻倍, Nvidia Spectrum-X800 交換機總容量 51.2T是上一代的 4 倍. RoCE 實現的自適應路由, 擁塞控制及緩存池化分配等功能均需要交換器, 網卡軟硬件支持.


多家主流製造商已提供支持 RoCE 技術的網卡產品, 其中 Nvidia, Intel 和 Broadcom 是主要供應商. 交換機集成 RDMA 流控技術, 在與 RoCE 網卡協同工作時, 能夠實現從發送端到接收端的高效 RDMA 通信, 廠商有 Cisco, HPE 及 Arista等.


Smart NIC 的內建可程式加速器可處理多種網路任務, 包括負載平衡, 遙測, 路由, 虛擬交換, 網路覆蓋等. 所有這些網路功能也從主機伺服器的CPU上卸載, 這使得資料中心網路更有效率.  台灣相關廠商有智邦 (兼容三項硬體架構), 神準(Intel x86),  立端 (網路安全為主)  等.


留言

  1. InfiniBand與RoCE技術對比分析:面向高性能計算網絡選擇的深度指南
    https://community.fs.com/hk/article/infiniband-vs-roce-how-to-choose-a-network-for-ai-data-center.html

    回覆刪除
  2. IB和RoCE,谁更适合AI数据中心网络?
    https://www.sdnlab.com/26283.html

    回覆刪除
  3. RoCE指南
    https://community.fs.com/hk/article/roce-rdma-over-converged-ethernet.html

    回覆刪除
  4. 一文读懂RoCE
    https://www.sdnlab.com/25923.html

    回覆刪除
  5. 智能網卡(SmartNIC):增強網絡性能
    https://community.fs.com/hk/article/smartnic-empowering-network-performance-.html

    回覆刪除
  6. 導入英特爾NetSec加速卡參考設計,神準跨入SmartNIC領域
    https://www.ithome.com.tw/review/161958

    回覆刪除
  7. 智邦跨入AI伺服器 全年營收2位數成長
    https://ec.ltn.com.tw/article/breakingnews/4704586

    回覆刪除

張貼留言