精选国内外好片免费收看,91免费看大片,日韩高清的天堂在线观看免费,电影电视剧全集

Flink未來將與 Pulsar集成提供大規模的彈性數據處理

2019-05-17 14:29

Python進階學習交流

關注

問題導讀

1．什么是Pulsar？

2．Pulsar都有哪些概念？

3．Pulsar有什么特點？

4．Flink未來如何與Pulsar整合？

Apache Flink和Apache Pulsar的開源數據技術框架可以以不同的方式集成，以提供大規模的彈性數據處理。在這篇文章中，我將簡要介紹Pulsar及其與其他消息傳遞系統的差異化元素，并描述Pulsar和Flink可以協同工作的方式，為大規模彈性數據處理提供無縫的開發人員體驗。

Pulsar簡介

Apache Pulsar是一個開源的分布式pub－sub消息系統，由Apache Software Foundation管理。Pulsar是一種用于服務器到服務器消息傳遞的多租戶，高性能解決方案，包括多個功能，例如Pulsar實例中對多個集群的本地支持，跨集群的消息的無縫geo－replication，非常低的發布和端到端－延遲，超過一百萬個主題的無縫可擴展性，以及由Apache BookKeeper等提供的持久消息存儲保證消息傳遞。現在讓我們討論Pulsar和其它pub－sub消息傳遞框架之間的主要區別：

第一個差異化因素源于這樣一個事實：雖然Pulsar提供了靈活的pub－sub消息傳遞系統，但它也有持久的日志存儲支持－因此在一個框架下結合了消息傳遞和存儲。由于采用了分層架構，Pulsar提供即時故障恢復，獨立可擴展性和無平衡的集群擴展。

Pulsar的架構遵循與其他pub－sub系統類似的模式，因為框架在主題中被組織為主要數據實體，生產者向主體發送數據，消費者從主題（topic）接收數據，如下圖所示。

Topic是Pulsar的核心概念，表示一個“channel”，Producer可以寫入數據，Consumer從中消費數據（Kafka、RocketMQ都是這樣）。

Topic名稱的URL類似如下的結構：

｛persistent｜non－persistent｝：／／tenant／namespace／topic

persistent｜non－persistent表示數據是否持久化（Pulsar支持消息持久化和非持久化兩種模式）

Tenant為租戶

Namespace一般聚合一系列相關的Topic，一個租戶下可以有多個Namespace

Pulsar的第二個區別是該框架是從一開始就考慮多租戶而構建的。這意味著每個Pulsar主題都有一個分層的管理結構，使得資源的分配以及團隊之間的資源管理和協調變得高效和容易。借助Pulsar的多租戶結構，數據平臺維護人員可以在沒有摩擦的情況下加入新團隊，因為Pulsar在屬性（租戶），命名空間或主題級別提供資源隔離，同時數據可以在集群中共享以便于協作和協調。

下圖中Property即為租戶，每個租戶下可以有多個Namespace，每個Namespace下有多個Topic。

Namespace是Pulsar中的操作單元，包括Topic是配置在Namespace級別的，包括多地域復制，消息過期策略等都是配置在Namespace上的。