四桶影视为您提供2025年最新电视剧,国产精品嫩草影院一二三区,操大胸美女,日本韩国偷拍视频对白不卡高清精品

萬字詳解數據倉庫、數據湖、數據中臺和湖倉一體

2022-02-21 11:51

園陌

關注

本文目錄：

一、前言

二、概念解析

1．數據倉庫

2．數據湖

3．數據中臺

三、具體區別

1．數據倉庫 VS 數據湖

2．數據倉庫 VS 數據中臺

3．總結

四、湖倉一體

1．目前數據存儲方案

2．Data Lakehouse（湖倉一體）

一、前言

數字化轉型浪潮卷起各種新老概念滿天飛，數據湖、數據倉庫、數據中臺輪番在朋友圈刷屏，有人說“數據中臺算個啥，數據湖才是趨勢”，有人說“再見了數據湖、數據倉庫，數據中臺已成氣候”……

企業還沒推開數字化大門，先被各種概念絆了一腳。那么它們 3 者究竟有啥區別？別急，先跟大家分享兩個有趣的比喻。

1、圖書館VS地攤

如果把數據倉庫比喻成“圖書館”，那么數據湖就是“地攤”。去圖書館借書（數據），書籍質量有保障，但你得等，等什么？等管理員先查到這本書屬于哪個類目、在哪個架子上，你才能精準拿到自己想要的書；而地攤上沒有人會給你把關，什么書都有，你自己翻找、隨用隨取，流程上比圖書館便捷多了，但大家找書的過程是沒有經驗可復用的，偶爾多拿少拿咱們可能也不知道。

2、升級版銀行

假定數據倉庫、數據湖、數據中臺都是銀行，可以提供現金、黃金等多種服務。過去大家進銀行前都得先問門衛，里面每個門牌上的數字對應哪個服務呢？是現金還是黃金呢？然后推開對應的門把東西取出來。而有了“數據中臺”這個銀行，大家一進來就能看到標著“現金”、“黃金”漢字的窗口，一目了然，你只需要走到窗口前，就有專人幫你辦理。

以上兩個例子不一定全面，但基本能解釋三者的優劣勢。數據倉庫具備規范性，但取數用數流程長；數據湖取數用數更實時、存儲量大，但數據質量難以保障；數據中臺能精準快速地響應業務需求，離業務側最近。

為了更清晰地區別三者，接下來咱們再來看看它們各自的定義以及應用區別。

二、概念解析

1．數據倉庫

數據倉庫誕生于 1990 年，絕對算得上是“老前輩”了，它是一個相對具體的功能概念。目前對數據倉庫的主流定義是位于多個數據庫上的大容量存儲庫，它的作用在于存儲大量的結構化數據，并能進行頻繁和可重復的分析，幫助企業構建商業智能（BI）。

具體定義：

數據倉庫（Data Warehouse）是一個面向主題的（Subject Oriented）、集成的（Integrated）、相對穩定的（Non－Volatile）、反映歷史變化的（Time Variant）數據集合，用于支持管理決策和信息的全局共享。其主要功能是將組織透過資訊系統之聯機事務處理（OLTP）經年累月所累積的大量資料，透過數據倉庫理論所特有的資料儲存架構，分析出有價值的資訊。

所謂主題：是指用戶使用數據倉庫進行決策時所關心的重點方面，如：收入、客戶、銷售渠道等；所謂面向主題，是指數據倉庫內的信息是按主題進行組織的，而不是像業務支撐系統那樣是按照業務功能進行組織的。

所謂集成：是指數據倉庫中的信息不是從各個業務系統中簡單抽取出來的，而是經過一系列加工、整理和匯總的過程，因此數據倉庫中的信息是關于整個企業的一致的全局信息。

所謂隨時間變化：是指數據倉庫內的信息并不只是反映企業當前的狀態，而是記錄了從過去某一時點到當前各個階段的信息。通過這些信息，可以對企業的發展歷程和未來趨勢做出定量分析和預測。

數據倉庫的作用：

數據倉庫系統的作用能實現跨業務條線、跨系統的數據整合，為管理分析和業務決策提供統一的數據支持。數據倉庫能夠從根本上幫助你把公司的運營數據轉化成為高價值的可以獲取的信息（或知識），并且在恰當的時候通過恰當的方式把恰當的信息傳遞給恰當的人。

是面向企業中、高級管理進行業務分析和績效考核的數據整合、分析和展現的工具；

是主要用于歷史性、綜合性和深層次數據分析；

數據來源是ERP（例：SAP）系統或其他業務系統；

能夠提供靈活、直觀、簡潔和易于操作的多維查詢分析；

不是日常交易操作系統，不能直接產生交易數據；

實時數倉

實時數倉和離線數倉非常的像，誕生的背景主要是近幾年企業對于數據服務的實時性需求日益增多。里面的數據模型也會像中臺一樣分好幾層：ODS 、CDM、ADS。但整體對于實時性要求極高，因此一般存儲會考慮采用Kafka這種log base的MQ，而計算引擎會采用Flink這種流計算引擎。

2．數據湖

數據湖是一種不斷演進中、可擴展的大數據存儲、處理、分析的基礎設施，它就像一個大型倉庫存儲企業多樣化原始數據以數據為導向，實現任意來源、任意速度、任意規模、任意類型數據的全量獲取、全量存儲、多模式處理與全生命周期管理。擁有強大的信息處理能力和處理幾乎無限的并發任務或工作的能力。

數據湖從企業的多個數據源獲取原始數據，數據可能是任意類型的信息，從結構化數據到完全非結構化數據，并通過與各類外部異構數據源的交互集成，支持各類企業級應用。結合先進的數據科學與機器學習技術，能幫助企業構建更多優化后的運營模型，也能為企業提供其他能力，如預測分析、推薦模型等，這些模型能刺激企業能力的后續增長。

進入互聯網時代，有兩個最重要的變化。

一個是數據規模前所未有，一個成功的互聯網產品日活可以過億，就像你熟知的頭條、抖音、快手、網易云音樂，每天產生幾千億的用戶行為。傳統數據倉庫難于擴展，根本無法承載如此規模的海量數據。

另一個是數據類型變得異構化，互聯網時代的數據除了來自業務數據庫的結構化數據，還有來自 App、Web 的前端埋點數據，或者業務服務器的后端埋點日志，這些數據一般都是半結構化，甚至無結構的。傳統數據倉庫對數據模型有嚴格的要求，在數據導入到數據倉庫前，數據模型就必須事先定義好，數據必須按照模型設計存儲。

所以，數據規模和數據類型的限制，導致傳統數據倉庫無法支撐互聯網時代的商業智能。

05年的時候，Hadoop誕生了。Hadoop 相比傳統數據倉庫主要有兩個優勢：

完全分布式，易于擴展，可以使用價格低廉的機器堆出一個計算、存儲能力很強的集群，滿足海量數據的處理要求；

弱化數據格式，數據被集成到 Hadoop 之后，可以不保留任何數據格式，數據模型與數據存儲分離，數據（包含了原始數據）在被使用的時候，可以按照不同的模型讀取，滿足異構數據靈活分析的需求。而數倉更加關注可以作為事實依據的數據。

隨著Hadoop與對象存儲的成熟，數據湖的概念在10年被提出：數據湖（Data Lake）是一個以原始格式存儲數據的存儲庫或系統（這意味著數據湖的底層不應該與任何存儲耦合）。

對應的來說，如果數據湖沒有被治理好（缺乏元數據、定義數據源、制定數據訪問策略和安全策略，并移動數據、編制數據目錄），則會變成數據沼澤。

而從產品形態上來說，數倉往往是獨立標準化的產品。而數據湖更像是一種架構指導——需要配合一系列的周邊工具，來實現業務需要的數據湖。

3．數據中臺

大規模數據的應用，也逐漸暴露出現一些問題。

業務發展前期，為了快速實現業務的需求，煙囪式的開發導致企業不同業務線，甚至相同業務線的不同應用之間，數據都是割裂的。兩個數據應用的相同指標，展示的結果不一致，導致運營對數據的信任度下降。如果你是運營，當你想看一下商品的銷售額，發現兩個報表上，都叫銷售額的指標出現了兩個值，你的感受如何？你第一反應肯定是數據算錯了，你不敢繼續使用這個數據了。

數據割裂的另外一個問題，就是大量的重復計算、開發，導致的研發效率的浪費，計算、存儲資源的浪費，大數據的應用成本越來越高。

如果你是運營，當你想要一個數據的時候，開發告訴你至少需要一周，你肯定想是不是太慢了，能不能再快一點兒？

如果你是數據開發，當面對大量的需求的時候，你肯定是在抱怨，需求太多，人太少，活干不完。

如果你是一個企業的老板，當你看到每個月的賬單成指數級增長的時候，你肯定覺得這也太貴了，能不能再省一點，要不吃不消了。

這些問題的根源在于，數據無法共享。2016 年，阿里巴巴率先提出了“數據中臺”的口號。數據中臺的核心，是避免數據的重復計算，通過數據服務化，提高數據的共享能力，賦能數據應用。之前，數據是要啥沒啥，中間數據難于共享，無法積累。現在建設數據中臺之后，要啥有啥，數據應用的研發速度不再受限于數據開發的速度，一夜之間，我們就可以根據場景，孵化出很多數據應用，這些應用讓數據產生價值。