免费久久国产&夜夜毛片&亚洲最大无码中文字幕&国产成人无码免费视频之奶水&吴家丽查理三级做爰&国产日本亚欧在线观看

訂閱
糾錯
加入自媒體

阿里云為什么要重構數據湖解決方案?

2020-11-11 11:25
IT168
關注

  數據湖并不是一個新概念,大概在十多年前,從有Hadoop開始,就有很多人提出這樣的設想。面對海量數據增長,要想挖掘數據價值,首先得有一個能夠存儲各類數據的“湖”,這個湖的“蓄水能力”要足夠強大,能存儲、分析和處理各類數據,包括結構化數據、非結構化數據、機器數據以及來自物聯網設備的數據等等。之后,隨著大數據、云計算以及云存儲技術的不斷成熟,數據湖解決方案被主流云計算廠商極力推崇,并且演繹出不同版本。走到今天,數據湖解決方案似乎已足夠成熟,但從應用場景來看,一切才剛剛開始,還有大量變革空間,這也是阿里云為什么要重構數據湖解決方案,主推下一代技術的根本原因。

  什么是下一代數據湖解決方案?

  如何理解阿里云數據湖解決方案的最新特性?阿里云智能存儲產品資深總監陳起鯤認為,數據湖解決方案由數據分析架構演化而來。

  早期大數據分析架構,是強耦合擴容模式,同一份數據需要在不同的計算集群中重復拷貝,空間利用率低,計算資源過剩;但數據是不斷積累狀態,并且有波峰波谷期,為了滿足業務需求,承載更多數據,計算和存儲要一起擴容。因為是兩套系統,從生產導入數據肯定需要時間,所以會出現數據導入緩慢的狀況,最終無法實時洞察業務。

  這時,聰明人就提出了數據湖架構。早期的數據湖架構一般是分布式文件存儲,可以橫向擴展,通過糾刪碼提高資源利用率;同時,計算和存儲是分離狀態,你可以按需擴展算力。另外,底層是分布式文件存儲,基于塊存儲、對象存儲等很多協議,用戶可以把結構化和半結構化數據放在一起,數據可以統一管理,底層的分布式存儲對元數據、小文件和性能都有一定提升。

  對于用戶來說,數據湖帶來的好處顯而易見,不管是過去的數據倉庫,還是現在的大數據、運營數據、交互式查詢,以及可視化數據、實時分析以及預測分析數據,都能基于數據湖進行存儲、分析,進而獲得更大的商業價值。

  而從服務提供商的角度來看,各家都在說自己是最先提供數據湖解決方案的企業。事實上,數據在哪里,分析就在哪里。這也是為什么云廠商在推出數據庫產品的時候,很多用戶都愿意去嘗試。因為產品本身就在承載互聯網場景應用,具有海量數據云上處理能力,有更強大的計算引擎,能真正和生產環境融合在一起。云與互聯網應用場景結合,才能孕育出最強大功能的解決方案,而在這方面,誰更具有獨特優勢?非阿里云莫屬!

  至于,阿里云的數據湖解決方案到底在哪些地方進行了重構?其實一句話就可以概括,那就是“云湖共生,數倉同步”。

  云湖共生,數倉同步

  “作為業內首個云原生、企業級數據湖解決方案,阿里云數據湖解決方案可提供EB級數據存儲、分析能力,能實現一站式湖存儲、湖加速、湖管理、湖計算,幫助企業深入挖掘與分析數據。”陳起鯤強調,數據湖雖然是一個早已存在的概念,但阿里云的數據湖在繼承以往優勢的基礎上已演繹出新的特色。

  首先,最新數據湖解決方案要能承載移動、互聯網、IoT業務的生產數據。數據湖不應該只是解決分析環節的問題,而是要和生產環境結合。尤其在現代業務環境下,很多企業的大部分數據都來源于移動應用或者社交媒體,這種數據搬到分析引擎上,通常都是PB級別,如果等搬完后再分析,已不具備實時性。所以,真正的數據湖解決方案必須基于企業級的生產環境做大數據分析,在線生成環境產生的數據,直接可以分析。其次,必須是一個能承載EB級數據量的數據湖。其三,具有秒級響應能力,有SLA的保證,能滿足高性能和高彈性需求。其四,能對數據加密,并對數據高效管理,確保業務安全。

  如何理解這些能力呢?其實一切都是客戶應用價值驅動。比如:五年前,你問一個客戶,建了一個多大量的數據湖?用來干什么?他會說,有多少個TB,主要功能就是每天晚上做數據分析,等早晨把數據分析的結果打印出來,給領導看,用于當天決策。但是五年后的今天,很多分析都是PB級,領導需要實時看到分析結果。如何讓生產環境具有高度的彈性和穩定性?如何讓數據分析和業務保持強耦合狀態?一定要有SLA的保證!另外,數據是企業最寶貴的資源,必須要安全地存放,統一管理。

  基于客戶應用場景的最新需求,阿里云在底層技術以及整體架構上進行了四個方面的重構。

  阿里云提供了全球領先的、最高水平的SLA,引領對象存儲可用性SLA進入5位數。阿里云承諾,在每十萬次請求中,單可用區錯誤概率不超過10次,多可用區錯誤概率不超過5次,這比其他云廠商提供的服務提高了10-20倍的可用性。同時,最多有12個9的持久性設計,有多層的冗余架構設計和主動排查故障的能力。

  能支持全球數十EB級數據規模。在阿里云的數據湖應用場景中,每天有上萬億次的讀寫或者API調用請求,因為數據量非常大,通常會分標準型、低頻訪問型、歸檔型,用戶可以按數據類型分類。同時,數據架構也是強一致性模型,用戶可以做全生命周期管理,系統會提供Bucket清單,方便企業盤點、查找資源。所以,用戶如果使用阿里云的數據湖解決方案,等于在用上EB別的數據管理功能去管理企業的數據。

  用戶可以靈活、更具彈性地選擇計算引擎。在算力方面,阿里云承諾在單客戶、單可用區3分鐘提供50萬核vCPU交付能力。在存儲上,阿里云可以提供上TB級別的數據吞吐量,同時有海量數據的處理能力。在現實業務環境中,企業應用往往遭遇巨大的性能挑戰,如果有一個資源爆掉,其他資源會受影響。比如:在一個Bucket里面,可能會有很多業務在同時分析,會互相干擾。即使只有一個業務在分析,也有腳本的優先級。為了從性能方面保障高可用性,阿里云提供了同Bucket分業務的QoS性能隔離功能,滿足客戶不同業務分析需求。最重要的是,不管是機器學習引擎還是深度學習引擎,都可以自然接入阿里云OSS, 讓一份數據用于多個計算引擎。

  數據安全。很多人擔心上云后數據不安全。實際上,只有上云后數據才安全。在阿里云上,只需點擊幾個按鈕,就可以全鏈路加密云上數據,并且密鑰可管可控,你可以集成阿里云的密鑰管理服務,也可以集成自己的KMS服務,系統支持多種加密算法。另外,云上數據加密,不能影響性能,還要有防誤刪、自帶DDoS攻擊防護功能。可能有人會問,那萬一阿里的人干了什么壞事,怎么辦?這點無需擔心!阿里云資源的所有操作,都通過日志這種不能篡改的方式記錄,并且阿里內部對用戶資源的日志可以實現對外透明化,你可以通過第三方審計來核實。

  值得一提的是,為了更好地提升客戶體驗,阿里云圍繞數據湖解決方案推出了一系列新產品。比如:對象存儲OSS加速器功能,主要用于數據湖重復復讀場景,能極大地解決讀吞吐挑戰,從根本上解決數據讀取的一致性問題。同時,阿里云針對對象存儲OSS,還重磅發布了冷歸檔存儲類型產品,提供接近磁帶級的成本,并解決磁帶方案在兼容性、數據失效、取回效率低等的問題,是海量數據長期留存的最佳解決方案。另外,在構建數據洞察力方面,開源Spark性能差,資源成本較高,阿里云最新發布的Databricks數據洞察產品內置了商業版的Spark和DataLake,可以為用戶帶來高于開源Spark50倍的性能計算能力,確保結構化數據、半結構化數據以及流式數據處理的高性能、高可靠和彈性擴展。

  目前,阿里云最新推出的數據湖解決方案已經在互聯網、金融、教育、游戲等技術前沿領域落地,尤其在人工智能、物聯網、自動駕駛等擁有海量數據場景的新興行業,未來大有廣闊空間。另外,混合云趨勢的到來,也會加速推動數據湖解決方案的落地。公共云+私有云的結合,導致很多企業會把一部分數據遷移到云端,因為相對于IDC架構,云更有彈性、技術創新更快,企業成本更低、業務迭代可以更敏捷。同時,隨著業務數字化、在線化,數據的容災保護更加重要,企業會更重視對生產環境的災備。而從降本增效的角度考慮,企業也更愿意對數據進行冷熱分層,把一部分數據留在本地,把剩余的數據放在云端,然后在云上可以基于大數據、AI來做訓練和分析。

  總體來看,數據湖的未來發展前景更加可期,而隨著企業應用上云進程的加快,阿里云將勇往直前,秒殺所有對手!

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號