萬字詳解數據倉庫、數據湖、數據中臺和湖倉一體
三、具體區別
1. 數據倉庫 VS 數據湖
相較而言,數據湖是較新的技術,擁有不斷演變的架構。數據湖存儲任何形式(包括結構化和非結構化)和任何格式(包括文本、音頻、視頻和圖像)的原始數據。根據定義,數據湖不會接受數據治理,但專家們一致認為良好的數據管理對預防數據湖轉變為數據沼澤不可或缺。數據湖在數據讀取期間創建模式。與數據倉庫相比,數據湖缺乏結構性,而且更靈活,并且提供了更高的敏捷性。值得一提的是,數據湖非常適合使用機器學習和深度學習來執行各種任務,比如數據挖掘和數據分析,以及提取非結構化數據等。

2. 數據倉庫 VS 數據中臺
數據倉庫和傳統的數據平臺,其出發點為一個支撐性的技術系統,即一定要先考慮我具有什么數據,然后我才能干什么,因此特別強調數據質量和元數據管理;而數據中臺的第一出發點不是數據而是業務,一開始不用看你系統里面有什么數據,而是去解決你的業務問題需要什么樣的數據服務。
在具體的技術處理環節,二者也有明顯不同,數據的預處理流程正在從傳統的ETL結構向ELT結構轉變。傳統的數據倉庫集成處理架構是ETL結構,這是構建數據倉庫的重要一環,即用戶從數據源抽取出所需的數據,經過數據清洗,將數據加載到數據倉庫中去。而大數據背景下的架構體系是ELT結構,其根據上層的應用需求,隨時從數據中臺中抽取想要的原始數據進行建模分析。

3. 總結
根據以上數據倉庫、數據湖和數據中臺的概念論述和對比,我們進行如下總結:
數據中臺、數據倉庫和數據湖沒有直接的關系;
數據中臺、數據倉庫和數據湖在某個維度上為業務產生價值的形式有不同的側重;
數據中臺是企業級的邏輯概念,體現企業數據向業務價值轉化的能力,為業務提供服務的主要方式是數據 API;
數據倉庫是一個相對具體的功能概念,是存儲和管理一個或多個主題數據的集合,為業務提供服務的方式主要是分析報表;
數據中臺距離業務更近,能夠更快速的響應業務和應用開發需求,從而為業務提供速度更快的服務;
數據倉庫是為了支持管理決策分析,而數據中臺則是將數據服務化之后提供給業務系統,不僅限于分析型場景,也適用于交易型場景;
數據中臺可以建立在數據倉庫和數據平臺之上,是加速企業從數據到業務價值的過程的中間層。
四、湖倉一體
有人說“湖倉一體成為下一站燈塔,數倉、數據湖架構即將退出群聊”。
2020年,大數據DataBricks公司首次提出了湖倉一體(Data Lakehouse)概念,希望將數據湖和數據倉庫技術合而為一,此概念一出各路云廠商紛紛跟進。
Data Lakehouse(湖倉一體)是新出現的一種數據架構,它同時吸收了數據倉庫和數據湖的優勢,數據分析師和數據科學家可以在同一個數據存儲中對數據進行操作,同時它也能為公司進行數據治理帶來更多的便利性。
1. 目前數據存儲的方案
一直以來,我們都在使用兩種數據存儲方式來架構數據:
數據倉庫:主要存儲的是以關系型數據庫組織起來的結構化數據。數據通過轉換、整合以及清理,并導入到目標表中。在數倉中,數據存儲的結構與其定義的schema是強匹配的。
數據湖:存儲任何類型的數據,包括像圖片、文檔這樣的非結構化數據。數據湖通常更大,其存儲成本也更為廉價。存儲其中的數據不需要滿足特定的schema,數據湖也不會嘗試去將特定的schema施行其上。相反的是,數據的擁有者通常會在讀取數據的時候解析schema(schema-on-read),當處理相應的數據時,將轉換施加其上。
現在許多的公司往往同時會搭建數倉、數據湖這兩種存儲架構,一個大的數倉和多個小的數據湖。這樣,數據在這兩種存儲中就會有一定的冗余。
2. Data Lakehouse(湖倉一體)
Data Lakehouse的出現試圖去融合數倉和數據湖這兩者之間的差異,通過將數倉構建在數據湖上,使得存儲變得更為廉價和彈性,同時lakehouse能夠有效地提升數據質量,減小數據冗余。在lakehouse的構建中,ETL起了非常重要的作用,它能夠將未經規整的數據湖層數據轉換成數倉層結構化的數據。
下面詳細解釋下:
湖倉一體(Data Lakehouse):
依據DataBricks公司對Lakehouse 的定義:一種結合了數據湖和數據倉庫優勢的新范式,解決了數據湖的局限性。Lakehouse 使用新的系統設計:直接在用于數據湖的低成本存儲上實現與數據倉庫中類似的數據結構和數據管理功能。
解釋拓展:
湖倉一體,簡單理解就是把面向企業的數據倉庫技術與數據湖存儲技術相結合,為企業提供一個統一的、可共享的數據底座。
避免傳統的數據湖、數據倉庫之間的數據移動,將原始數據、加工清洗數據、模型化數據,共同存儲于一體化的“湖倉”中,既能面向業務實現高并發、精準化、高性能的歷史數據、實時數據的查詢服務,又能承載分析報表、批處理、數據挖掘等分析型業務。
湖倉一體方案的出現,幫助企業構建起全新的、融合的數據平臺。通過對機器學習和AI算法的支持,實現數據湖+數據倉庫的閉環,提升業務的效率。數據湖和數據倉庫的能力充分結合,形成互補,同時對接上層多樣化的計算生態。
Lakehouse有如下關鍵特性:
事物支持:Lakehouse 在企業級應用中,許多數據管道通常會同時讀取和寫入數據。通常多方同時使用 SQL 讀取或寫入數據,Lakehouse 保證支持ACID事務的一致性。
模式實施和治理:Lakehouse 應該有一種支持模式實施和演變的方法,支持 DW 模式規范,例如 star /snowflake-schemas。該系統應該能夠推理數據完整性,并且應該具有健壯的治理和審核機制。
BI支持:Lakehouse 可以直接在源數據上使用BI工具。這樣可以減少陳舊度和等待時間,提高新近度,并且降低必須在數據湖和倉庫中操作兩個數據副本的成本。
存儲與計算分離:事實上,這意味著存儲和計算使用單獨的群集,因此這些系統能夠擴展到更多并發用戶和更大數據量。一些現代數據倉庫也具有這種屬性。
兼容性:Lakehouse 使用的存儲格式是開放式和標準化的,例如 Parquet,并且它提供了多種 API,包括機器學習和 Python/R 庫,因此各種工具和引擎都可以直接有效地訪問數據。
支持從非結構化數據到結構化數據的多種數據類型:Lakehouse 可用于存儲,優化,分析和訪問許多新數據應用程序所需的數據類型,包括圖像,視頻,音頻,半結構化數據和文本。
支持各種工作場景:包括數據科學,機器學習和 SQL 分析。這些可能依賴于多種工具來支持的工作場景,它們都依賴于相同的數據存儲庫。
端到端流式任務:實時報告是許多企業的日常需要。對流處理的支持消除了對專門服務于實時數據應用程序的單獨系統的需求。

上面這張圖是DataBricks給出的架構演化參考圖。
我們可以看到,傳統的數倉目標非常明確,適用于將各業務數據源合并后,進行商務BI分析和報表。隨著企業需要處理的數據類型越來越多,包括客戶行為,IoT,圖片,視頻等, 數據規模也成指數增加。
數據湖技術被引入,并用于承擔通用數據存儲和處理平臺的作用,數據湖由于其分布式存儲和計算能力的特點,也可以更好的支持機器學習計算, 在數據湖時代,我們通常可以看到DataLake和Data Warehouse還是會同時存在的。
隨著大數據時代的到來,是不是有可能讓大數據技術可以取代傳統數倉,形成一個統一的數據處理架構,湖倉一體的概念被提出,并由DataBricks和云廠商們在進行快速的推演和實踐。
--END--
原文標題 : 萬字詳解數據倉庫、數據湖、數據中臺和湖倉一體
請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
- 1 AI狂歡遇上油價破百,全球股市還能漲多久? | 產聯看全球
- 2 OpenAI深夜王炸!ChatGPT Images 2.0實測:中文穩、細節炸,設計師慌了
- 3 6000億美元估值錨定:字節跳動的“去單一化”突圍與估值重構
- 4 Tesla AI5芯片最新進展總結
- 5 連夜測了一波DeepSeek-V4,我發現它可能只剩“審美”這個短板了
- 6 熱點丨AI“瑜亮之爭”:既生OpenClaw,何生Hermes?
- 7 AI界的殺豬盤:9秒刪庫跑路,全員被封號,還繼續扣錢!
- 8 2026,人形機器人只贏了面子
- 9 DeepSeek降價90%:價格屠夫不是身份,是戰略
- 10 AI Infra產業鏈卡在哪里了?


分享













