大數據小知識:四種數據處理系統各自的特征與優勢
大數據中蘊含的寶貴價值成為人們存儲和處理大數據的驅動力,因此海量數據的處理對于當前存在的技術來說是一種極大的挑戰。目前,人們對大數據的處理形式主要是對靜態數據的批量處理,對在線數據的實時處理,以及對圖數據的綜合處理。其中,在線數據的實時處理又包括對流式數據的處理和實時交互計算兩種。本文將詳細闡述上述4種數據形式特征以及各自的處理系統。

利用批量數據挖掘合適的模式,得出具體的含義,制定明智的決策,最終做出有效的應對措施實現業務目標是大數據批處理的首要任務。大數據的批量處理系統適用于先存儲后計算,實時性要求不高,同時數據的準確性和全面性更為重要的場景。
批量數據的特征通常有3個。
第一,數據體量巨大。數據從TB級別躍升到PB級別。數據是以靜態的形式存儲在硬盤中,很少進行更新,存儲時間長,可以重復利用,然而這樣大批量的數據不容易對其進行移動和備份。
第二,數據精確度高。批量數據往往是從應用中沉淀下來的數據,因此精度相對較高,是企業資產的一部分寶貴財富。
第三,數據價值密度低。以視頻批量數據為例,在連續不斷的監控過程中,可能有用的數據僅僅有一兩秒。因此,需要通過合理的算法才能從批量的數據中抽取有用的價值。此外,批量數據處理往往比較耗時,而且不提供用戶與系統的交互手段,所以當發現處理結果和預期或與以往的結果有很大差別時,會浪費很多時間。因此,批量數據處理適合大型的相對比較成熟的作業。

Google于2010年推出了Dremel,引領業界向實時數據處理邁進。實時數據處理是針對批量數據處理的性能問題提出的,可分為流式數據處理和交互式數據處理兩種模式。在大數據背景下,流式數據處理源于服務器日志的實時采集,交互式數據處理的目標是將PB級數據的處理時間縮短到秒級。通俗而言,流式數據是一個無窮的數據序列,序列中的每一個元素來源各異,格式復雜,序列往往包含時序特性,或者有其他的有序標簽(如IP報文中的序號)。從數據庫的角度而言,每一個元素可以看作是一個元組,而元素的特性則類比于元組的屬性。流式數據在不同的場景下往往體現出不同的特征,如流速大小、元素特性數量、數據格式等,但大部分流式數據都含有共同的特征,這些特征便可用來設計通用的流式數據處理系統。
下面簡要介紹流式數據共有的特征。
首先,流式數據的元組通常帶有時間標簽或其余含序屬性。因此,同一流式數據往往是被按序處理的。然而數據的到達順序是不可預知的,由于時間和環境的動態變化,無法保證重放數據流與之前數據流中數據元素順序的一致性。這就導致了數據的物理順序與邏輯順序不一致。而且,數據源不受接收系統的控制,數據的產生是實時的、不可預知的。此外,數據的流速往往有較大的波動,因此需要系統具有很好的可伸縮性,能夠動態適應不確定流入的數據流,具有很強的系統計算能力和大數據流量動態匹配的能力。
其次,數據流中的數據格式可以是結構化的、半結構化的甚至是無結構化的。數據流中往往含有錯誤元素、垃圾信息等。因此流式數據的處理系統要有很好的容錯性與異構數據分析能力,能夠完成數據的動態清洗、格式處理等。最后,流式數據是活動的(用完即棄),隨著時間的推移不斷增長,這與傳統的數據處理模型(存儲?查詢)不同,要求系統能夠根據局部數據進行計算,保存數據流的動態屬性。流式處理系統針對該特性,應當提供流式查詢接口,即提交動態的SQL語句,實時地返回當前結果。

與非交互式數據處理相比,交互式數據處理靈活、直觀、便于控制。系統與操作人員以人機對話的方式一問一答——操作人員提出請求,數據以對話的方式輸入,系統便提供相應的數據或提示信息,引導操作人員逐步完成所需的操作,直至獲得最后處理結果。采用這種方式,存儲在系統中的數據文件能夠被及時處理修改,同時處理結果可以立刻被使用。交互式數據處理具備的這些特征能夠保證輸入的信息得到及時處理,使交互方式繼續進行下去。

圖由于自身的結構特征,可以很好地表示事物之間的關系,在近幾年已成為各學科研究的熱點。圖中點和邊的強關聯性,需要圖數據處理系統對圖數據進行一系列的操作,包括圖數據的存儲、圖查詢、最短路徑查詢、關鍵字查詢、圖模式挖掘以及圖數據的分類、聚類等。隨著圖中節點和邊數的增多(達到幾千萬甚至上億數),圖數據處理的復雜性給圖數據處理系統提出了嚴峻的挑戰。下面主要闡述圖數據的特征和典型應用以及代表性的圖數據處理系統。
圖數據中主要包括圖中的節點以及連接節點的邊,通常具有3個特征。
第一,節點之間的關聯性。圖中邊的數量是節點數量的指數倍,因此,節點和關系信息同等重要,圖結構的差異也是由于對邊做了限制,在圖中,頂點和邊實例化構成各種類型的圖,如標簽圖、屬性圖、語義圖以及特征圖等。
第二,圖數據的種類繁多。在許多領域中,使用圖來表示該鄰域的數據,如生物、化學、計算機視覺、模式識別、信息檢索、社會網絡、知識發現、動態網絡交通、語義網、情報分析等。每個領域對圖數據的處理需求不同,因此,沒有一個通用的圖數據處理系統滿足所有領域的需求。
第三,圖數據計算的強耦合性。在圖中,數據之間是相互關聯的,因此,對圖數據的計算也是相互關聯的。這種數據耦合的特性對圖的規模日益增大達到上百萬甚至上億節點的大圖數據計算提出了巨大的挑戰。大圖數據是無法使用單臺機器進行處理的,但如果對大圖數據進行并行處理,對于每一個頂點之間都是連通的圖來講,難以分割成若干完全獨立的子圖進行獨立的并行處理;即使可以分割,也會面臨并行機器的協同處理,以及將最后的處理結果進行合并等一系列問題。這需要圖數據處理系統選取合適的圖分割以及圖計算模型來迎接挑戰并解決問題。
四種大數據各自的特點和處理方式都記住了嗎,使用的時候要根據不同的情況來考量哦。
想要獲取更多大數據相關資訊和知識,關注微信公眾號成都科多大數據就能看到啦。
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













