突破算力瓶頸看 "存算一體" 架構

 傳統的 AI 推理晶片解決方案將訓練好的權重值存儲在外部的記憶體 DRAM 中, CPU 或 GPU 做推理運算時不停地調用 DRAM 中的數據, 並將中間數據實時存回, 這種架構被稱為傳統馮·諾伊曼架構, 以計算為中心, 計算和存儲分離, 二者配合完成數據的存取與運算.


在深度學習中, 由於數據在 CPU 或 GPU 中頻繁高速傳遞, 整個過程的無用能耗大概在 60%-90%; 同時由於外部 DRAM 的運行速度遠小於 CPU 或 GPU 的運算速度, 馮·諾依曼架構也受到傳輸帶寬瓶頸的限制, 因此系統的運算效率大打折扣.


業界除了從 "More Moore(深度摩爾)", "More than Moore (超越摩爾)" 與 "Beyond CMOS (新器件)" 這三大方向探索提升算力的技術路徑, 也在通過變革當前的計算架構來實現算力的突破. 目前主流晶片如 CPU, GPU 以及 DPU 均按照馮·諾依曼架構設計.


雖然多核 (如 CPU)/眾核 (如 GPU) 並行加速技術可以提升算力, 但在後摩爾時代, 存儲帶寬制約了計算系統的有效帶寬, 系統算力增長步履維艱. 目前最流行與使用最廣的 GPU 的架構演進並未解決大算力和大模型的挑戰.


存算一體被認為是最具有潛力的革命性技術, 其核心是將存儲與計算完全融合, 存儲器中疊加計算能力, 以新的高效運算架構進行二維和三維矩陣計算, 結合後摩爾時代先進封裝, 新型存儲器件等技術, 能有效克服馮·諾依曼架構瓶頸, 實現計算能效的數量級提升.


存算一體技術的技術底層特征包括: 1) 減少數據搬運 (降低能耗至 1/10~1/100); 2) 存儲單元具備計算能力 (等效於在面積不變的情況下規模化增加計算核心數, 或者等效於提升工藝代); 3) 單個存算單元替代 "計算邏輯+寄存器" 更小更快.


新型記憶體器件的物理性能更適合開發存內計算, 在實現更高計算密度的同時具備成本優勢. 在新型記憶體器件上發展存算一體技術, 能夠帶來更大的算力優勢, 從而開拓更多的人工智能應用場景.


根據量子位智庫測算, 2025 年基於存算一體技術的小算力晶片市場規模約為 125 億人民幣. 存算一體技術從實驗室的研究成果到實現初步量產需要 5 年左右的時間, 從初步量產到大規模量產則需要10 年左右時間.


SRAM 在速度方面和能效比方面具有優勢, 特別是在存內邏輯技術發展起來之後具有明顯的高能效和高精度特點; 此外 PRAM有望成為下一代主流研究方向, 雖然目前來看材料依舊不穩定, 但是具有高速, 結構簡單的優點, 有希望成為未來發展最快的新型記憶體.


留言

  1. 算力大戰 台積日月光受惠
    https://www.chinatimes.com/newspapers/20230320000103-260202?chdtv

    回覆刪除
  2. 創意3奈米設計定案 錢景旺
    https://wantrich.chinatimes.com/news/20230410900110-420101

    回覆刪除
  3. Google宣稱第四代專用TPU比輝達A100效能更強更節能
    https://money.udn.com/money/story/5599/7078183

    回覆刪除
  4. 大陸算力總規模全球第二 每投入1元將帶動3至4元GDP成長
    https://www.chinatimes.com/realtimenews/20230411002544-260409?chdtv

    回覆刪除
  5. 創意、世芯商機暴衝 全球AI算力競賽
    https://money.udn.com/money/story/5607/7018506

    回覆刪除
  6. 時代雜誌:AI算力每半年翻倍,軍備競賽正改變一切
    https://www.moneydj.com/kmdj/news/newsviewer.aspx?a=70f93e39-7971-4b70-8853-15798a21e599

    回覆刪除
  7. 蘇姿丰:人工智慧是未來 10 年最重要的事,釋放更多算力還需更多努力
    https://technews.tw/2023/03/25/artificial-intelligence-is-the-most-important-thing-in-the-next-10-years/

    回覆刪除

張貼留言