另闢蹊徑的特斯拉 Dojo AI 晶片

人工智能晶片也被稱為 AI 加速器或計算卡, 即專門用於處理人工智能應用中的大量計算任務的模塊 (其他非計算任務仍由 CPU 負責). 業界關於 AI 晶片的定義仍然缺乏一套嚴格和公認的標準. 比較寬泛的看法是, 面向人工智能應用的晶片都可以稱為 AI 晶片.


 AI 大模型對訓練端的算力提出了更高要求, 新興初創 AI 晶片企業 (如 Cerebras, Graphcore等), 以及晶片行業以外的企業, 包括特斯拉等, 正在異軍突起, 試圖在晶片設計上另辟蹊徑, 通過大尺寸晶圓級晶片內存共享和低延時的技術路線突破 AI 晶片瓶頸.


2019 Cerebras Systems 發布第一代 WSE (Wafer-Scale Engine, 晶圓級引擎) 晶片. 到了 2021 推出為超級計算機而打造的 WSE-2, 在第一代的基礎上進行了優化. WSE 與傳統晶片最大的不同在於整片晶圓不進行切割. 而在晶片結構上, WSE 對內存和橫向擴展也採用了獨特的設計.


對比傳統芯片架構使用共享中央 DRAM, 其存取速度較慢且距離較遠. 目前主流技術使用中介層 (interposer) 和 HBM 等技術來解決這問題, 但人工智能深度學習要求每個內核都在最高水平運行, 使得內核和內存之間距離須盡量縮短.


公司針對性地設計了 Cerebras CS-2 系統, 用單塊晶圓晶片實現集群級計算. 大晶片設計也無法避免高功耗帶來的散熱挑戰, Cerebras WSE 採用液冷和風冷兩套散熱系統, 其功耗高達 15KW. 在良率提升上, 晶圓級晶片嘗試通過設計額外面積以及冗余內核來繞過缺陷.


Graphcore (未上市) 是一家專注於研發人工智能晶片及打造計算機系統的初創公司,  Graphcore 通過智能處理器 IPU (Intelligence Processing Unit) 提供滿足人工智能計算的存儲要求, 包括低時延訪問, 使用非結構化數據以及管理隨機與非時序數據模式.


2022 年 Graphcore 推出 Bow IPU, 是一種全新的大規模並行處理器, 主要用於加速 AI 計算. Bow IPU 採用台積電 7nm 制程工藝, 並基於台積電 SoIC-WoW (System on IC Wafer on Wafer) 多晶圓堆疊 3D 封裝技術.


IPU 採用 MIMD 架構, 具有多指令和多數據並行的特點, 適用於精細化和高性能計算, 與Nvidia GPU 採用的常規 SIMT架構不同. 為了減少內存延遲時間, IPU 摒棄了共享內存並在架構上采用大規模分布式的片上 SRAM, 記憶體與每個內核緊密耦合.


2021 特斯拉在 AI Day 中首次介紹 Dojo 超級計算機, 一個基於 D1 Dojo 晶片的晶圓上 (System on Wafer) 系統級方案. 特斯拉計劃利用 Dojo 對海量的視頻數據進行無監督學習, 加速特斯拉的 Autopilot 和完全自動駕駛 (FSD) 系統的叠代, 同時為人形機器人 Optimus 提供算力支持.


Dojo 架構能提供高寬帶和低延遲的性能, 採用台積電 InFO_SoW 技術. InFO_SoW 技術整合了 InFO 技術, 動力和散熱模塊. 通過將晶圓作為載體本身, 不使用襯底和 PCB, 從而獲得低延遲的晶片間通信, 高帶寬密度和低配電網絡阻抗, 以提升計算性能和功耗效率.


特斯拉表示可通過增加冗余核心數量, 保證晶片即使存在個別雜質, 也能正常運行, 從而提升晶片良率. 每個 Dojo D1 晶片雖由 360 (18 x 20) 個 Dojo 核心拼接構成, 但為了提升良率和處理器核心穩定, 其中僅只有 354 個核心可用. 在散熱問題上, 特斯拉表示通過全自研的 VRM (電壓調節模組) 解決 Dojo 超算平台的散熱控制.


綜合考慮, A100 和 H100 仍然是大部分企業開展 AI 訓練的晶片首選. A100 和 H100 作為訓練晶片, 提供最全的精度模式. 另外, Cerebras WSE, Dojo D1, Graphcore 都沒有使用 DRAM 而是採用了 SRAM, 但 SRAM 在具備更高存取速度的同時, 成本也較高.


當 SoC/CPU 調用 DRAM 時, 響應時間約為 60ns; 而 L3 快取或晶片上 SRAM 的響應時間可能低至10ns. 特斯拉的訓練節點中帶有 1.25MB SRAM, 354個節點組成的運算陣列, 也就是這個 SoC 算下來就是 424.8MB快取, 超越所有處理器, 這可能已經不是 L3 快取等級, 而是更快的 L2 了.


目前全球 AI 晶片市場主要被歐美地區的廠商所主導, 全球頭部廠商主要包括AMD, Google, Intel, Nvidia 和 IBM 等. 在數據中心/大模型領域, Nvidia 憑借其自身 CUDA 生態在 AI 及高性能計算占據絕對主導地位.


留言

  1. 特斯拉AI超級電腦Dojo有多威?大摩預測「打破行情」
    https://www.chinatimes.com/realtimenews/20230911003978-260410?chdtv

    回覆刪除
  2. Tesla超級電腦Dojo將顛覆產業 外資點將熱門股
    https://www.chinatimes.com/realtimenews/20230913003015-260410?ctrack=pc_main_rtime_p01&chdtv

    回覆刪除
  3. 特斯拉啟動 AI 超級電腦,萬顆 H100、Dojo 同時運行
    https://technews.tw/2023/08/29/tesla-ai-super-computer/

    回覆刪除
  4. 华尔街顶尖投行,为什么认定特斯拉 Dojo 值 5000 亿美元?
    https://www.36kr.com/p/2428951946011654

    回覆刪除
  5. 特斯拉的一张芯片图片引发猜想:台积电InFO_SoW的首次实现?
    https://www.eet-china.com/mp/a68803.html

    回覆刪除
  6. Tesla AI Day彩蛋:ASIC(晶片)、InFO_SoW(封裝)、DOJO(超算)、Neuralink
    https://ppfocus.com/0/teac0cd66.html

    回覆刪除
  7. 台積電7奈米 獲博通HPC訂單
    https://www.chinatimes.com/newspapers/20200817000176-260202?chdtv

    回覆刪除
  8. 特斯拉数据训练用芯片Dojo D1与传统巨头相比相去甚远
    https://www.eefocus.com/article/526114.html

    回覆刪除

張貼留言