如何評測一個大數據系統
數據的爆炸式增長掀起了大數據的研究熱潮,越來越多的應用領域涉及到大數據的處理和存儲,其所蘊藏的科學價值和商業價值逐漸體現。為了挖掘大數據中隱藏的知識,各種大數據系統應運而生,例如Hadoop、MapReduce、Hive、Spark等。如何客觀地評價眾多的大數據系統以及從中選擇適合自身需求的系統成為學術界和工業界普遍關心的問題,大數據工業界和研究社區迫切需要一套公認的大數據評測基準。

Jim Gray認為:特定領域的評測基準應選擇典型應用,并滿足領域內應用的多樣性。據此他進一步提出了一套成功的評測基準需要滿足的4個條件:系統相關性、可移植性、可擴展性和簡單。其中,系統相關性是指能夠評測領域相關的系統性能,包括系統的峰值性能,性價比等;可移植性是指評測基準能夠移植到不同的平臺上,易于在不同的系統和架構上實現;可擴展性是指能夠適應不同的系統規模;簡單是指評測基準易于理解,評測結果具有可靠性。
參考Gray提出的4條標準,并結合大數據海量、高速、多樣的特性,我們提出了針對大數據領域的評測基準需要滿足的需求。
可代表性
大數據領域具有非常廣的覆蓋范圍,信息時代的來臨使得越來越多的應用領域涉及到大數據的處理和存儲,因此一個完整而全面的評測基準不可能一蹴而就。如何盡可能提高負載覆蓋度又不失評測的簡易性是很大的挑戰,這也就要求評測基準具有領域代表性。
我們認為大數據領域的代表性主要體現在3個方面:
①代表性負載。
眾所周知,目前應用領域極其繁多,領域之間有一定的共有特性,但每個領域有其獨特性,因此應用領域和負載的代表性在一定程度上也就決定了評測基準的代表性;
②代表性數據。
大數據領域與傳統數據庫等領域的一個顯著區別即是數據類型多元化,傳統的結構化數據不再占據主導地位,半結構化和非結構化數據爆炸性增長,因此評測基準不能忽略復雜而多樣的數據類型;
③代表性軟件棧。
數據迅猛增長催生了眾多的大數據處理和存儲系統,然而不同的軟件棧對大數據負載的行為特征具有很大的影響,因此大數據評測基準需要涵蓋代表性軟件棧。

可移植性
大數據評測基準不僅需要能夠縱向地評測大數據系統,而且需要能夠對不同的系統進行橫向的對比。這就要求相同的負載能夠提供不同的實現方式,評測基準能夠便利地移植到其他平臺。為了使不同的實現方式具有公平的可比性,針對不同平臺的實現,需要具有相同的輸入和輸出,以及相同的算法處理邏輯。如今,一系列針對大數據處理和存儲的開源產品被發布,例如MapReduce、Spark等,所以在評測基準的實現過程中需要考慮基于這些不同的軟件棧的實現。

可擴展性
大數據評測基準需要提供可擴展的數據集和負載。大數據的一個顯著特征即是數據量大,單一節點的存儲已逐步轉變成分布式存儲,因此評測基準所提供的數據和負載需要適應不同規模的平臺。然而如今大多數的大數據持有者視數據為重要的商業機密,因而能夠提供符合真實數據特性的可擴展數據集是大數據評測基準重要而基本的需求。

可理解性
評測基準需要具有簡易性,易于理解,并易于部署和評測,同時評測結果能夠指導系統的評價、改進和優化。然而,大數據系統本身非常復雜。僅僅從簡單性的角度來選擇典型負載,可能會使基準程序喪失代表性。因此,我們用可理解性來取代原有的簡單性需要。可理解性有3點含義:能從基本操作單元和負載模式的角度理解典型負載;評測結果需要簡單直觀,評測人員能夠根據負載的特性分析結果的合理性并判斷系統的瓶頸或者優劣;評測結果需要具有穩定性,其結果必須是可靠的并且可重現的。

大數據系統的蓬勃發展催生了大數據基準測試的研究,如何公正地評價不同的大數據系統以及怎樣根據需求選取合適的系統成為了熱點問題。大家在使用的過程中,不妨也動腦筋想一想,為什么選擇這些系統?按照評測的基準還有哪些系統也值得了解?這樣你的編程之旅才不容易迷茫。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













