陳左寧:解析為什么說傳統超算并不最適合AI

AI對算力體系結構的需求
要擺脫體系結構的限制,需要對現有體系結構進一步優化。這包括:
適度使用較低精度;
更有效利用內存層次結構;
更有效的并行形式;
使用大片上緩存和高帶寬內存(目前應用較多);
發展包含編解碼部件、稀疏部件等在內的新部件(比如NVDIA A100 專門做了稀疏部件的設計);
計算流/數據流/控制流有機結合;
異構深度融合結構……
再進一步,變革體系結構,使其能夠實現“更合理的映射”。
所謂更合理的映射,可以理解為:既然人工智能表征的是點和點之間的“關系”,而“關系”本身又具有一種拓撲連接關系,那么如果計算物理架構能夠更好地映射到這種拓撲連接,顯然是最有效的。
如何實現?
首先要有面向應用需求的體系結構設計(主要是一些參數的變化,比如SIMD個數、核心數,改變芯片尺寸、互連、能耗等);
進一步可以發展存內計算、網內計算這種適合人工智能算法的計算形態(存算一體、傳算一體);
最好的是,面向“連接關系”設計硬件、面向“連接”設計體系結構,使拓撲關系表示更能反映“關系和連接”。比如當前排行超算TOP 500榜首的日本“富岳”,通過設計出6D-Torus,更適于映射高維度的數據。
再進一步,變革體系結構,使其能夠實現“高可擴展的架構設計”。
這類講的比較多的有晶圓級封裝和系統級封裝。
異構集成系統設計方案的創新,讓“Chiplet”走進人們視野。這種“產品中的不同組件在獨立的裸片上設計和實現”的理念,正隨著技術的發展引起大型商業公司和研究機構的關注。如今,不僅多核系統可以Chiplet,甚至多個Chiplet也可以再做融合。
比如美國初創公司Cerebras發布的“全球最大的芯片WSE”,就是晶圓級封裝的典型代表;蘇黎世聯邦理工學院發布剛剛在今年發布的4096核心RISC-V芯片,也是一個由多個Chiplet組合起來的眾核架構。

據稱WSE上有1.2萬億個晶體管
在理想狀態下,這類“大芯片”的效率非常高,比“CPU+GPU”高很多倍,同時所需能耗和空間也非常低。
當然,類腦芯片和量子芯片這種更加能夠映射到AI表征的“關系”的芯片,是從硬件形態上對體系結構的突破,現在代表性的產品有谷歌發布的Truenorth 神經形態芯片浙江大學發布的“達爾文2”芯片。
值得指出的是,類腦芯片目前仍處于概念驗證階段,量子芯片更是還在襁褓之中。

AI對算力軟件棧的需求
前文提到,根據發展趨勢,AI對算力軟件棧的需求,要求軟件棧是復雜、動態、分布式,分散的,要支撐新的場景(如原生支持分散場景等),以及架構創新(如軟硬件協同設計、體系結構突破等)。
這是由于,目前現有的人工智能軟件棧是分離的——即各流程軟件支持是分離的,每個階段有每個階段的處理系統。
比如:預處理,一般是基于CPU 集群,軟件多用Hadoop、Spark等;模型設計,前端CPU服務器+JupyterNotebook系統;模型訓練,基于CPU-GPU集群的TensorFlow等框架;部署、推理多利用邊緣設備等等。
正是由于各階段有各自的處理系統、不同的階段用不同的系統,導致現在缺乏原生的擴展能力和動態支撐能力,包括編排、流程化處理,都缺乏很好的支撐。
由此,人工智能軟件棧需求就是對可擴展的支持、動態的支持、協同全流程計算等的需求。
其中,協同全流程計算需要考慮AI應用的全生命周期和為“人的介入”作特殊設計。特別是人在環路中這點必須特殊考慮。
傳統HPC中,“人的介入”非常明確——就是開發階段,模型、算法確定以后就不必再去考慮了;但在AI特別是在訓練中則不得不區別對待。
比如要研究人在回路中的最大特征,如要研究語義、交互、迭代;要研究不確定性、脆弱性和開放性條件下的任務建模、環境建模和人類行為建模;要研究人機物融合新型人工智能等等。
從架構創新的角度,人工智能對算力軟件棧的需要,則集中在以下幾個方面:
從集中式到適應分布式、分散、動態的需求;
從“以計算為中心”到“以數據為中心”;
從“面向計算機專家”到“面向數據分析專家”;
彈性、多框架的協同;
支持云邊端協同。
特別需要指出的是,受編程及軟件平臺感知邊緣資源限制,如今的智能任務不可能只在一臺大機器中完成,顯然需要云邊端協同完成;而智能本身的任務分配,包括感知、認知、決策,也是一個閉環,同樣需要云邊端的智能融合。

最后,兩點說明
當前,AI對算力的需求潛力已毋庸置疑。但由于AI發展的歷史尚短,自身無論計算理論、方法算法都尚不完整,特別是數學理論的基礎還很不堅實,因此,AI還不能如傳統的數值模擬一樣,能夠非常明確地提出對HPC計算能力的要求。
也就是說,AI的計算理論還沒有發展到它能對HPC明確提出很高的需求階段。但反過來看,如果AI能夠接近甚至達到人的智能水平,肯定會對計算能力、存儲能力等的需求非常高。
另一方面,高性能計算未來也將不再簡單比拼“肌肉”——只追求規模和性能——更加智慧的高性能計算系統將成為主流。
未來,高性能計算、物聯網、大數據和人工智能將實現深度融合。國家超級計算廣州中心主任盧宇彤甚至預言,“到2030年,所有高端計算設備將自帶AI支持功能,高性能計算仿真將利用AI平臺提高性能,AI也將重塑計算仿真。”
因此,現階段HPC與AI融合、適配問題的關鍵在于,在HPC體系結構發生改變的過渡階段,如何在AI的演進階段支撐其計算能力需求,這是目前HPC領域應該考慮的問題。
還應注意到,深度學習僅僅是AI算法的一個分支,面向AI的云端高性能計算環境需要廣泛適應包括深度學習在內的多種應用模式,未來的應用需求仍有待進一步研究。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













