企業級存儲發展趨勢談:開源存儲的冷思考

很多年之前,
業內就討論過
開源與自研的關系,
孰輕孰重,
孰好孰壞,
到現在也還沒有定論。
開源軟件蓬勃發展,為何機遇與挑戰并存?
事實上,我們很多行業似乎都離不開開源軟件了。為什么呢?開源造就了多個產業的發展,已經成為了當前不少行業創新的重要途徑。
Synopsys公司2020年研究數據顯示,99%的商業軟件含有開源組件,75%則直接由開源代碼組成。開源軟件的使用不斷增多,在云計算、大數據、人工智能、工業互聯網等新興領域,開源軟件已成為重要的創新發展模式。
從中國對于全球開源軟件的整體貢獻情況來看,2021年7月,國家信息安全發展中心副主任董大健分析指出,中國開源代碼貢獻已經占全球40%左右,國家“十四五規劃”也首次加入了開源體系建設的相關發展要求。不過,他同時也指出,開源體系也具有一些系統性的問題和風險。
盡管開源軟件存在一定的問題與風險,但大家對于開源應用與開發的興趣依舊濃厚,因此,國內外對于開源的安全性研究也十分重視。美國WhiteSource公司發布的《2019年開源組件安全漏洞現狀報告》顯示,2019年公開的開源軟件漏洞數量已增至6000多個,增幅近50%;而后在其2020年發布的《開源安全年度報告》顯示,平均每1000行開源代碼中就有14個安全漏洞,每1400行開源代碼中就有1個高危安全漏洞。
2021年底,國家信息中心公共技術服務部王曉冬在《我國開源軟件產業面臨的突出風險及對策研究》一文中分析指出,我國開源軟件產業存在斷供、代碼安全、知識產權、自主創新等風險。
理性認識開源存儲,到底哪里好哪里不好?
事實上,開源帶動了存儲初創科技公司的誕生,帶動了與存儲相關的開源生態的發展。基于開源軟件構建存儲產品的廠商,與開源社區相輔相成,相互促進,共同發展。開源項目也吸引了資本的興趣,在資本與開源社區加持下,這類存儲廠商也開始了開源項目的商業化之路。
然而,企業級存儲廠商的開源商業化之路來得還是不容易的,從分布式存儲軟件的開源發展與現狀來看,目前主流的開源軟件主要包括Ceph、HDFS、Swift、Lustre、GlusterFS等。
其中,按照存儲類型來劃分,Ceph屬于融合塊、對象、文件于一體的統一存儲, HDFS、Lustre、GlusterFS歸屬于文件存儲類,Swift是OpenStack開源云計算項目的子項目之一,屬于OpenStack Object Storage對象存儲。Ceph與GlusterFS的齊頭并進,將中國的開源存儲發展推向了新的階段,對于云計算與軟件定義存儲的發展貢獻了一定的力量。當前來看,Ceph的開源存儲支持者比較多,社區建設更為龐大,開發者貢獻頻率也相對較高。
從開源存儲的整體發展優勢來分析,因為社區開發者與開發團隊貢獻的代碼多,各自有所專長專注的功能領域,迭代自然更快。
同時,因為代碼開源,只要是社區組織中的成員,遵循一定的規則,代碼就都可以拿來使用,必然存在開發成本優勢。
建設開源社區的同時也就是在建設開源生態,這是來自全球開發者的貢獻地。每一位社區成員與社區組織本身都在開源生態的共同作用下,不斷推動開源存儲軟件的應用與對外交付。由此可見,開源存儲軟件的整體生態還是非常強大,行業影響力也在不斷深入。
然而,存儲軟件面臨的商業化挑戰,不是一時半會兒可以解決的。堅持自研路線的存儲廠商,如曙光、華為等經歷了數十年之久的技術積累,如果開源存儲軟件短時間內就能搞定,這說明了什么?值得冷靜思考一下。
站在用戶需求的角度來看,分布式存儲的發展正確路線應該是如何實現容量、性能、可用性、可靠性、可伸縮性這五點的平衡。對于開源存儲軟件而言,Scale-out架構帶來的存儲容量上的靈活擴展能力,加上閃存與大容量硬盤技術的迅猛發展,讓存儲系統的性能也能獲得足夠高的表現,同時也實現了很好的伸縮性。然而在可用性與可靠性上,都需要進一步的優化與提升。
在穩定性方面,開源社區處于一個開放的生態中,不是一批人或某一個開發團隊寫的代碼,對軟件架構設計的理解參差不齊,開發邏輯可能不一致,不穩定因素及安全隱患風險更大。代碼程序及產品軟件存在缺陷是不可避免的,在不同的階段發現缺陷并進行修正,對于代碼穩定性的影響程度不同,付出的成本也不同。據相關統計數據估計,在軟件測試、發布階段糾正缺陷的成本是編碼階段發現并糾正缺陷的成本的15-90倍,如果在交付用戶之后才發現并解決缺陷,這個數字將達到50-200倍。因此,任何安全隱患都可能造成巨大的損失。而對于開源社區代碼而言,由于其開放性和龐雜性,導致很難有社區開發者將開源存儲代碼進行完整的測試。基于開源存儲軟件構建的商業化產品,如果不能對100%的源代碼進行測試,那么這就可能為用戶交付穩定可靠的存儲系統埋下了不少隱患。
在整體服務質量方面,因為開源帶來的Bug問題逐年遞增,如何真正解決實際應用中的Bug問題,對開源存儲廠商的技術能力有著不同程度的挑戰。廠商研發實力強大,自然對于用戶的服務質量就高,廠商研發實力弱一些,帶給用戶的服務質量就存在“折扣”。可見,每一次開源存儲軟件的交付,都是對開源存儲廠商的技術考驗。
此外,在大規模部署的時候,開源存儲的穩定性和可用性存在一定的挑戰。以Ceph為例,其商業化存儲有不少案例,但直接使用開源Ceph構建數十PB甚至上百PB的大規模案例,到目前幾乎沒有。
當然,這里需要值得注意的是,自主研發的商業化存儲軟件,也不意味著所有代碼模塊都是封閉的。龐大的系統化工程中,必然會借鑒、改進或采用少量開源框架或組件,同樣也會因為開源組件引入而潛藏安全漏洞。
存儲軟件自主研發的根本主要聚焦在四個方面:
一是,整體的架構設計;
二是,核心數據通路的構建;
三是,從底層到上層的各個關鍵模塊的軟件設計及編碼實現 ;
四是,系統的安全性等,即自主研發意味著廠商對于存儲系統的功能、性能、可靠性等具有完全控制權,做到系統整體性上的自主,同時通過完備的單元測試、系統測試、產品測試,結合白盒測試、灰盒測試、黑盒測試等手段,交付高質量的產品,將用戶的應用風險降到最低。
用戶做存儲選型,到底是開源還是自研?
全球存儲觀察分析認為,開源與自研好比硬幣的正反面,都有其存在的價值。根據不同場景與應用需求,按照用戶自身技術開發的能力高低選擇,這才是理性的解決之道。

從性能、可靠性、穩定性、備份容災等角度考量,用戶在面對核心業務應用場景的方案選擇時,對開源存儲一直都比較謹慎。特別是用戶本身運維團隊比較薄弱的情況下,將面臨后續軟件維護、更新迭代等一系列技術挑戰。因此,在核心業務、生產系統和大規模部署情況下,用戶選擇存儲系統的觀念依然“保守”,自研存儲系統依然是其首選。
從另一方面來看,對于具備一定數量的存儲開發人員,或具有存儲軟件領域開發背景的用戶來說,自身具備對開源存儲軟件的代碼修改、優化與調試的綜合能力,甚至團隊成員可能就是某些開源社區的貢獻者。在這種情況下,借助存儲開源軟件,便于配合業務創新應用的發展趨勢下,可獲得更為快捷、靈活的應用部署。由此可見,倘若企業用戶的存儲軟件開發能力強,選擇開源創新不失為一條符合產業發展的好路徑。
對用戶而言,存儲選擇到底是開源還是自研產品,需要考慮到企業自身的綜合成本,包括自身應用部署后的數據安全性要求,存儲軟件開發與運維人員成本,自身存儲實際應用過程中解決問題的服務質量。當然,數據安全、運維成本與服務質量,對于任何一個開源存儲廠商而言,也是值得重視的三大問題。
從存儲應用角度出發,開源與自研已經成為了企業級存儲發展的兩大趨勢,好比人的左手與右手。企業用戶到底會用左手多一些,還是用右手多一些,只在于企業自身的技術能力與實際應用需求。有時候左右手一起上,也不是沒有可能。一切皆有可能,當然最大的可能還是在于自身的技術開發能力到底有多少可能。
對于“開源存儲+自研存儲”的融合發展模式,有多少企業用戶會真的開啟,我們也可以拭目以待。
原文標題 : 企業級存儲發展趨勢談:開源存儲的冷思考
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













