日韩欧美一区二区三区在线视频,久久久久久精品国产女教师,日韩精品电影在线观看,国产乱辈通伦影片在线播放

阿里云為什么要重構數據湖解決方案？

2020-11-11 11:25

　　數據湖并不是一個新概念，大概在十多年前，從有Hadoop開始，就有很多人提出這樣的設想。面對海量數據增長，要想挖掘數據價值，首先得有一個能夠存儲各類數據的“湖”，這個湖的“蓄水能力”要足夠強大，能存儲、分析和處理各類數據，包括結構化數據、非結構化數據、機器數據以及來自物聯網設備的數據等等。之后，隨著大數據、云計算以及云存儲技術的不斷成熟，數據湖解決方案被主流云計算廠商極力推崇，并且演繹出不同版本。走到今天，數據湖解決方案似乎已足夠成熟，但從應用場景來看，一切才剛剛開始，還有大量變革空間，這也是阿里云為什么要重構數據湖解決方案，主推下一代技術的根本原因。

　　什么是下一代數據湖解決方案？

　　如何理解阿里云數據湖解決方案的最新特性？阿里云智能存儲產品資深總監陳起鯤認為，數據湖解決方案由數據分析架構演化而來。

　　早期大數據分析架構，是強耦合擴容模式，同一份數據需要在不同的計算集群中重復拷貝，空間利用率低，計算資源過剩；但數據是不斷積累狀態，并且有波峰波谷期，為了滿足業務需求，承載更多數據，計算和存儲要一起擴容。因為是兩套系統，從生產導入數據肯定需要時間，所以會出現數據導入緩慢的狀況，最終無法實時洞察業務。

　　這時，聰明人就提出了數據湖架構。早期的數據湖架構一般是分布式文件存儲，可以橫向擴展，通過糾刪碼提高資源利用率；同時，計算和存儲是分離狀態，你可以按需擴展算力。另外，底層是分布式文件存儲，基于塊存儲、對象存儲等很多協議，用戶可以把結構化和半結構化數據放在一起，數據可以統一管理，底層的分布式存儲對元數據、小文件和性能都有一定提升。

　　對于用戶來說，數據湖帶來的好處顯而易見，不管是過去的數據倉庫，還是現在的大數據、運營數據、交互式查詢，以及可視化數據、實時分析以及預測分析數據，都能基于數據湖進行存儲、分析，進而獲得更大的商業價值。

　　而從服務提供商的角度來看，各家都在說自己是最先提供數據湖解決方案的企業。事實上，數據在哪里，分析就在哪里。這也是為什么云廠商在推出數據庫產品的時候，很多用戶都愿意去嘗試。因為產品本身就在承載互聯網場景應用，具有海量數據云上處理能力，有更強大的計算引擎，能真正和生產環境融合在一起。云與互聯網應用場景結合，才能孕育出最強大功能的解決方案，而在這方面，誰更具有獨特優勢？非阿里云莫屬！

　　至于，阿里云的數據湖解決方案到底在哪些地方進行了重構？其實一句話就可以概括，那就是“云湖共生，數倉同步”。

　　云湖共生，數倉同步

　　“作為業內首個云原生、企業級數據湖解決方案，阿里云數據湖解決方案可提供EB級數據存儲、分析能力，能實現一站式湖存儲、湖加速、湖管理、湖計算，幫助企業深入挖掘與分析數據。”陳起鯤強調，數據湖雖然是一個早已存在的概念，但阿里云的數據湖在繼承以往優勢的基礎上已演繹出新的特色。

　　首先，最新數據湖解決方案要能承載移動、互聯網、IoT業務的生產數據。數據湖不應該只是解決分析環節的問題，而是要和生產環境結合。尤其在現代業務環境下，很多企業的大部分數據都來源于移動應用或者社交媒體，這種數據搬到分析引擎上，通常都是PB級別，如果等搬完后再分析，已不具備實時性。所以，真正的數據湖解決方案必須基于企業級的生產環境做大數據分析，在線生成環境產生的數據，直接可以分析。其次，必須是一個能承載EB級數據量的數據湖。其三，具有秒級響應能力，有SLA的保證，能滿足高性能和高彈性需求。其四，能對數據加密，并對數據高效管理，確保業務安全。

　　如何理解這些能力呢？其實一切都是客戶應用價值驅動。比如：五年前，你問一個客戶，建了一個多大量的數據湖？用來干什么？他會說，有多少個TB，主要功能就是每天晚上做數據分析，等早晨把數據分析的結果打印出來，給領導看，用于當天決策。但是五年后的今天，很多分析都是PB級，領導需要實時看到分析結果。如何讓生產環境具有高度的彈性和穩定性？如何讓數據分析和業務保持強耦合狀態？一定要有SLA的保證！另外，數據是企業最寶貴的資源，必須要安全地存放，統一管理。

　　基于客戶應用場景的最新需求，阿里云在底層技術以及整體架構上進行了四個方面的重構。

　　阿里云提供了全球領先的、最高水平的SLA，引領對象存儲可用性SLA進入5位數。阿里云承諾，在每十萬次請求中，單可用區錯誤概率不超過10次，多可用區錯誤概率不超過5次，這比其他云廠商提供的服務提高了10－20倍的可用性。同時，最多有12個9的持久性設計，有多層的冗余架構設計和主動排查故障的能力。

　　能支持全球數十EB級數據規模。在阿里云的數據湖應用場景中，每天有上萬億次的讀寫或者API調用請求，因為數據量非常大，通常會分標準型、低頻訪問型、歸檔型，用戶可以按數據類型分類。同時，數據架構也是強一致性模型，用戶可以做全生命周期管理，系統會提供Bucket清單，方便企業盤點、查找資源。所以，用戶如果使用阿里云的數據湖解決方案，等于在用上EB別的數據管理功能去管理企業的數據。

　　用戶可以靈活、更具彈性地選擇計算引擎。在算力方面，阿里云承諾在單客戶、單可用區3分鐘提供50萬核vCPU交付能力。在存儲上，阿里云可以提供上TB級別的數據吞吐量，同時有海量數據的處理能力。在現實業務環境中，企業應用往往遭遇巨大的性能挑戰，如果有一個資源爆掉，其他資源會受影響。比如：在一個Bucket里面，可能會有很多業務在同時分析，會互相干擾。即使只有一個業務在分析，也有腳本的優先級。為了從性能方面保障高可用性，阿里云提供了同Bucket分業務的QoS性能隔離功能，滿足客戶不同業務分析需求。最重要的是，不管是機器學習引擎還是深度學習引擎，都可以自然接入阿里云OSS，讓一份數據用于多個計算引擎。

　　數據安全。很多人擔心上云后數據不安全。實際上，只有上云后數據才安全。在阿里云上，只需點擊幾個按鈕，就可以全鏈路加密云上數據，并且密鑰可管可控，你可以集成阿里云的密鑰管理服務，也可以集成自己的KMS服務，系統支持多種加密算法。另外，云上數據加密，不能影響性能，還要有防誤刪、自帶DDoS攻擊防護功能。可能有人會問，那萬一阿里的人干了什么壞事，怎么辦？這點無需擔心！阿里云資源的所有操作，都通過日志這種不能篡改的方式記錄，并且阿里內部對用戶資源的日志可以實現對外透明化，你可以通過第三方審計來核實。

　　值得一提的是，為了更好地提升客戶體驗，阿里云圍繞數據湖解決方案推出了一系列新產品。比如：對象存儲OSS加速器功能，主要用于數據湖重復復讀場景，能極大地解決讀吞吐挑戰，從根本上解決數據讀取的一致性問題。同時，阿里云針對對象存儲OSS，還重磅發布了冷歸檔存儲類型產品，提供接近磁帶級的成本，并解決磁帶方案在兼容性、數據失效、取回效率低等的問題，是海量數據長期留存的最佳解決方案。另外，在構建數據洞察力方面，開源Spark性能差，資源成本較高，阿里云最新發布的Databricks數據洞察產品內置了商業版的Spark和DataLake，可以為用戶帶來高于開源Spark50倍的性能計算能力，確保結構化數據、半結構化數據以及流式數據處理的高性能、高可靠和彈性擴展。

　　目前，阿里云最新推出的數據湖解決方案已經在互聯網、金融、教育、游戲等技術前沿領域落地，尤其在人工智能、物聯網、自動駕駛等擁有海量數據場景的新興行業，未來大有廣闊空間。另外，混合云趨勢的到來，也會加速推動數據湖解決方案的落地。公共云＋私有云的結合，導致很多企業會把一部分數據遷移到云端，因為相對于IDC架構，云更有彈性、技術創新更快，企業成本更低、業務迭代可以更敏捷。同時，隨著業務數字化、在線化，數據的容災保護更加重要，企業會更重視對生產環境的災備。而從降本增效的角度考慮，企業也更愿意對數據進行冷熱分層，把一部分數據留在本地，把剩余的數據放在云端，然后在云上可以基于大數據、AI來做訓練和分析。

　　總體來看，數據湖的未來發展前景更加可期，而隨著企業應用上云進程的加快，阿里云將勇往直前，秒殺所有對手！