
先進存力,已是數智化轉型的核心基建。
文|游勇
編|周路平
在人工智能蓬勃發展和數智化轉型的當下,存儲的價值愈發凸顯。
隨著數據量的急劇膨脹,以及大模型訓推和業務實時分析的需要,傳統的數據中心越來越力不從心,存儲系統亟需向更高吞吐量,更低時延,更高效數據管理的先進數據基礎設施演變。
IDC則在《構建面向智能化時代的先進存力中心》白皮書中提到,要“適度超前建設先進存力中心”。
01
AI時代下,存儲也是一等公民
39.5ZB,這是IDC預測的中國在2024年的數據總生成量。四年后,這個數字將達到97.1ZB。
或許你對存儲容量單位沒有概念,如果拿當下內存容量最大的手機來對比,1ZB就需要10億臺1TB內存容量的手機才能放得下。
數據正處于大爆炸階段。從互聯網到移動互聯網到物聯網、人工智能,每天產生的數據量越來越大,而且種類越來越豐富,不僅有結構化數據,還有大量非結構化和半結構化數據。

海量的數據對存儲系統提出了更高的容量要求。數智前線在統計政企招投標采購時發現,今年前8個月已經出現了數百個與存儲相關的項目,主要涉及金融、制造、能源、運營商、交通等行業。在大模型熱的背景下,存儲市場也分外活躍。
另外,大量數據只管存,很少被真正用起來,價值挖掘不夠。但現在無論是AI的需求,還是業務場景的需要,使得高頻率、高速率、大帶寬的實時讀寫需求猛增,存儲系統也需要具備大帶寬、低時延、高并發的存儲性能,以支持實時數據的高速讀寫和分析處理。
“AI的興起是對數據價值的再發現。”曙光存儲副總裁郭照斌說,以前存儲是被動響應上層需求,但在數智化時代下,數據的價值被提到了新的高度,“以前大家覺得死的數據,現在經過反復的迭代訓練,它能產生智能化的東西,它能產生新的數據,這個時候大家才重視起來。”
過去,業內存在“重算力輕存力”的現象,建設了大量以GPU為主的智能算力基礎設施,而忽視了對先進存力的建設。去年初,英偉達發布過一個AI數據中心購置預算的構成,其中存儲僅占20%。
但越來越多人發現,存儲的性能深刻影響了算力性能的發揮。
尤其在大模型的訓練過程中,光解決算力和數據問題遠遠不夠,很多企業在采購了不少GPU后,發現往往很難滿負荷運轉,網絡和存儲經常遇到瓶頸,出現等待和浪費,拖累整個模型的訓練效率。
由于傳統業務對存儲的性能基本在百GB級,而大模型的訓練,對存儲的需求激增到TB級。無論是海量訓練數據加載、PB級斷點續訓,還是高并發推理問答,存儲性能直接決定了整個訓練推理過程中的GPU利用率。特別是在萬卡集群下,較差的存儲性能嚴重增加GPU閑置時間,造成資源的極大浪費。
有報告曾提到,在同等GPU算力規模下,存儲性能的高低可能造成模型訓練周期數倍的差異。
而且,相比于傳統AI的需求,大模型的場景具有數據量大、參數規模大、訓練周期長等特點。相對應的,它對存力提出了更高的要求,更加強調高吞吐、高IOPS、高帶寬、低延時等極致性能。
存儲系統正逐漸演進到更高吞吐量,更低時延,更高效的數據平臺。而傳統的數據中心面臨升級,新形態之一就是建設存算協同的先進存力中心。
曙光存儲副總裁郭照斌說,數智化時代,存儲不再是單純的被動響應,它會隨著算力的發展協同往前發展。
中科院院士錢德沛更是直言:存儲也是一等公民。換句話說,在AI時代,沒有先進存力,算力也無法充分發揮,兩者已經是相輔相成的關系。

越來越多人意識到存儲的價值。今年,中國計算機學會(CCF)首次舉辦了存儲大會。而2024年10月,中國電子工業標準化技術協會也成立了數據存儲專業委員會,曙光是會長單位。業內甚至有一種說法,存儲是算法、算力、數據之外,AI基礎設施的第四支柱。
不過,郭照斌也提到,在存儲標準方面,依然還有很長的路要走。比如存儲的評價方法、測試方法目前還沒有特別明確的統一標準;而存儲的協議目前也比較老舊,在應用端造成很多的不便。
02
先進存力,打通中國存儲產業
構建先進存力中心,成為智能時代解決數據難題的必然發展方向。
IDC在《構建面向智能化時代的先進存力中心》白皮書中提到,先進存力中心的技術突破和應用主要體現在應用EB級平滑擴展能力、多協議支持、先進軟件架構能力、多重防護機制、智能化管理平臺、液冷等先進技術,共同鑄就其高效融合、提質增效、全域流動、安全可靠、綠色低碳等五大特征。

這些特征背后對應的都是當前存儲系統需要應對的難題和挑戰。
比如,隨著數據來源和格式越來越復雜,不同存儲系統之間產生了數據孤島,影響數據的管理和有效利用。而且,許多傳統存儲系統在設計時未充分考慮擴展性,難以應對業務發展的需要。
而先進存力中心具備足夠的靈活性和可擴展性,一方面可以兼容不同架構技術棧,用戶可根據自身需求靈活選擇技術方案;另一方面,當面對高并發和大數據集的存儲需求時,能夠平滑擴容。
比如大容量、高速率、低延遲逐漸成為智能化時代評估存儲系統性能的重要指標,但當前存儲設備的容量和讀寫性能成為提質增效的重要瓶頸。而先進存力中心要求具備更高的性能,通過提升NVMe全閃存的比重,應用多級數據加速技術等,來實現海量的存儲空間、超高的吞吐量和IOPS能力。
算力流動本質是數據要素的流動。數據流動需要攻克跨域存儲集群組合管理、數據冷熱分級感知、數據跨域網智能流動及跨域無感知訪問等關鍵技術,支撐存力資源的優化布局。
而先進存力中心需要支持數據的全域流動,包括數據在集中式、分布式存儲之間的跨平臺流動,支持云端和本地化數據之間的流動,以及熱溫冷數據跨形態的流動等。
另外,綠色低功耗也在成為先進存力中心的必選項。
IDC數據顯示,存儲耗能約占數據中心總能耗的35%。IDC中國區副總裁周震剛提到,過往都是算力中心對能耗有比較高的要求,存儲和GPU消耗的算力不在一個級別,但隨著大模型訓練對于存儲I/O吞吐的訪問猛增,存儲的功耗也被提了起來,所以存儲對液冷等綠色技術有了更多的需求。
而作為先進存力中心概念的倡導者和先行者,曙光存儲正在快速適應AI時代存儲市場的需要。
2024年6月,曙光存儲發布全球首個億級IOPS集中式全閃存儲FlashNexus,“帶來了劃時代的性能革新”,成為業界唯一具備百控級擴展能力的集中式存儲產品,主要用于金融、運營商、醫療等行業的核心業務系統。
當下,發展全閃介質已經成為行業共識。相比傳統的HDD,全閃存介質支持高IOPS、低時延,更適用于AI大模型訓練階段的隨機讀寫場景。
在發布了首個集中式全閃產品的同時,曙光也升級了分布式存儲產品——ParaStor全閃存儲,主要面向AI應用,依托NVMe全閃的技術優化,單節點帶寬最高達到150GB/s、320萬IOPS。
ParaStor全閃存儲采用業界首創五級加速方案。比如BurstBuffer加速層,只需將關鍵數據存儲在計算節點本地的NVMe盤上,避免大量的網絡數據傳輸和遠程存儲訪問,適合存儲和快速讀取海量小文件,能夠將讀取性能提升數倍甚至十倍以上。比如XDS雙棧兼容,讓GPU直接訪問存儲,不僅減少了CPU本身的損耗,也縮短了整個I/O通路,降低了延時。
基于分布式帶來的擴展能力,曙光ParaStor分布式全閃存儲已經在科教、金融、運營商、生信等領域,以及自動駕駛等AI前沿的應用場景中廣泛落地。比如智元機器人公司在過去一年時間,頻繁發布新品,而智元能實現產品的快速迭代,背后也是曙光ParaStor分布式全閃存儲在提供支撐。
如今,曙光存儲已經形成了FlashNexus集中式存儲和ParaStor分布式存儲兩大產品線。曙光將其分別稱為強存和智存,從其字面意思不難理解,集中式存儲面向的是金融、運營商等領域的核心業務場景,對性能和可靠性要求高;而以分布式存儲為代表的智存面向的是AI等敏態業務需要。

而在這兩大不同架構的產品線之間,曙光又推出了通存的方案,打通集中式存儲與分布式存儲壁壘,讓數據無界流動,實現跨平臺一鍵式容災恢復、跨形態熱溫冷數據無感流動和跨域資源池全維度視圖,以充分提升存儲資源利用率,同時更好地支持東數西存、東數西渲、東數西訓等應用場景。
通過強存+智存+通存的產品和方案組合,曙光給AI時代提供的全新數據基礎設施正在得到越來越多用戶的認可。根據IDC年上半年最新數據顯示,曙光的市場增速達到了19.2%,遠高于市場平均水平。
03
先進客戶,走出了最佳實踐
位于重慶的西部科學城先進數據中心是東數西算的示范項目,也是成渝樞紐的主節點,通過高密度液冷機架和風冷機架相結合的方式,這里的核心計算設備PUE能做到1.04,能耗遠低于行業平均水平。

作為先進存力中心的代表之一,這里具備百PB級的海量存儲容量,支持冷溫熱分級存儲跨區域無感調度,可以按需為上層提供從文件、塊、大數據等多種協議的支持,靈活適配前端應用。
IDC認為,政府建設區域先進存力中心,需要綜合考慮基礎設施供應、建設與運營成本、中心整體存力及算力性能配比、數據安全與隱私保護、生態開放、綠色低碳發展要求等。
為了滿足不同客戶在先進存力上的需求,曙光已經探索出了三種部署模式。
除了上述為政府建設區域先進存力中心,在行業領域,先進存力中心也有廣闊的發揮空間。比如高端計算在氣象、環境、海洋等領域已經非常普遍,這些行業對數據處理能力有著非常高的要求,構建行業/產業鏈先進存力中心變得至關重要。
中國氣象局與曙光合作,構建了橫跨三地的存力平臺,建立了國省統一的數據環境,并以NVMe全閃存儲帶來超強的IOPS性能。根據億歐智庫發布的報告顯示,中科曙光以52%的市場份額,位居2023年度中國氣象高端計算服務市場應收份額頭名。
一位曙光的人士透露,針對行業的先進存力中心,曙光會針對行業數據匯聚需求,做跨域流通的準備。比如中國移動攜手曙光存儲打造了業內首個存力智能調度平臺。其核心能力包括數據的分級及策略管理,可以按照冷、熱、溫數據進行分級管理;統一觀測,支持異構存儲統一管理,數據和存力分布一目了然;數據跨區域遷移,支持不同資源池間數據自由遷移,實現業務無感訪問。
企業也有自建先進存力中心的需求,海量數據成為分析和大模型訓練的基礎,企業級先進存力中心不僅能夠提供高效、安全的數據存儲解決方案,還能夠支持快速的數據訪問和處理能力,這對于加速AI模型的訓練與推理過程尤為重要。
比如某家人工智能企業,面臨著訓練數據龐大和推理過程對讀寫速度高的困擾,這家企業通過與曙光合作,構建先進存力中心,應用簡潔的系統架構、高效的數據流轉性能、百微秒級元數據極致訪問性能,為業務提供堅實支撐。
除了人工智能廠商,自動駕駛企業也對先進存力中心有著旺盛需求,曙光存儲以超過100PB的存儲能力支撐某自動駕駛企業的模型迭代。
而這些先進客戶背后,都代表了所在行業和領域的動向和訴求。曙光存儲通過發揮技術創新和資源整合能力,打通存儲產業上下游,持續推動三大創新部署模式落地,也取得了階段性成果。
背后離不開長期的產業實踐和技術積累。曙光在存儲領域的開拓已有二十年,早在2004年開始堅定選擇自研路線,致力于解決中國存儲產業的底層技術難題。2009年曙光自研的存儲系統ParaStor正式誕生。2022年11月,曙光ParaStor分布式統一存儲系統登頂IO5O0全球存儲性能評測的榜首。
2023年,曙光存儲作為存儲領域的先行者和探索者,率先提出“先進存力”的概念,首批試點完成了一些先進存力中心的建設。經歷了多個產業化升級的曙光存儲,不僅幫助用戶實現了數據基礎設施的更新迭代,也在服務用戶的過程中走出了最佳實踐,實現了蝶變。



分享













