工業(yè)大數(shù)據(jù)處理領(lǐng)域的“網(wǎng)紅”——Apache Spark
4. 可融合性
Spark可以運(yùn)行在standalone、YARN、Mesos、Kubernetes及EC2多種調(diào)度平臺(tái)上。其中Standalone模式不依賴第三方的資源管理器和調(diào)度器,這樣降低了Spark的使用門檻,使得所有人可以非常容易地部署和使用Spark。
Spark可以處理所有Hadoop支持的數(shù)據(jù),包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。這對(duì)于已部署Hadoop集群的用戶特別重要,因?yàn)椴恍枰鋈魏螖?shù)據(jù)遷移就可以使用Spark強(qiáng)大的處理能力。
三、 Spark 相比MapReduce優(yōu)勢
Spark與MapReduce 同為計(jì)算框架,但作為后起之秀,Spark借鑒了MapReduce,并在其基礎(chǔ)上進(jìn)行了改進(jìn),使得算法性能明顯優(yōu)于MapReduce,下面大致總結(jié)一下兩者差異:
1) Spark把運(yùn)算的中間數(shù)據(jù)存放在內(nèi)存,迭代計(jì)算效率更高;MapReduce的中間結(jié)果需要落地到磁盤,磁盤io操作多,影響性能。
2) Spark容錯(cuò)性高,它通過Lineage機(jī)制實(shí)現(xiàn)RDD算子的高效容錯(cuò),某一部分丟失或者出錯(cuò),可以通過整個(gè)數(shù)據(jù)集的計(jì)算流程的血緣關(guān)系來實(shí)現(xiàn)重建;MapReduce的話容錯(cuò)可能只能重新計(jì)算了,成本較高。
3) Spark更加通用,Spark提供了transformation和action這兩大類的多個(gè)功能算子,操作更為方便;MapReduce只提供了map和reduce兩種操作。
4) Spark框架和生態(tài)更為復(fù)雜,首先有RDD、血緣lineage、執(zhí)行時(shí)的有向無環(huán)圖DAG、stage劃分等等,很多時(shí)候spark作業(yè)都需要根據(jù)不同業(yè)務(wù)場景的需要進(jìn)行調(diào)優(yōu)已達(dá)到性能要求;MapReduce框架及其生態(tài)相對(duì)較為簡單,對(duì)性能的要求也相對(duì)較弱,但是運(yùn)行較為穩(wěn)定,適合長期后臺(tái)運(yùn)行。
四、 Spark與工業(yè)互聯(lián)網(wǎng)平臺(tái)
工業(yè)互聯(lián)網(wǎng)帶來了工業(yè)數(shù)據(jù)的快速發(fā)展,對(duì)于日益增加的海量數(shù)據(jù),傳統(tǒng)單機(jī)因本身的軟硬件限制無法應(yīng)對(duì)海量數(shù)據(jù)的處理、分析以及深度挖掘,但作為分布式計(jì)算框架的Spark卻能輕松應(yīng)付這些場景。在工業(yè)互聯(lián)網(wǎng)平臺(tái)上,Spark 既能快速實(shí)現(xiàn)工業(yè)現(xiàn)場海量流數(shù)據(jù)的處理轉(zhuǎn)換,又能輕松應(yīng)對(duì)工業(yè)大數(shù)據(jù)平臺(tái)中海量數(shù)據(jù)的快速批處理分析,自身集成的機(jī)器學(xué)習(xí)框架能夠?qū)A抗I(yè)數(shù)據(jù)進(jìn)行深度挖掘分析,從而幫助管理者進(jìn)行決策分析。
基于Spark框架自身的優(yōu)良設(shè)計(jì)理念以及社區(qū)的蓬勃發(fā)展?fàn)顟B(tài),相信未來Spark會(huì)在工業(yè)互聯(lián)網(wǎng)平臺(tái)扮演越來越重要的角色。
本文作者: 黃歡,格創(chuàng)東智大數(shù)據(jù)工程師 (轉(zhuǎn)載請(qǐng)注明來源及作者)
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字
最新活動(dòng)更多
-
5月20日立即參評(píng)>> 【評(píng)選】維科杯•OFweek 2026中國智能制造行業(yè)年度評(píng)選
-
5月29日立即下載>> 【白皮書】工業(yè)視覺AI實(shí)戰(zhàn)白皮書合集
-
5月30日立即報(bào)名>> 2026激光行業(yè)應(yīng)用創(chuàng)新發(fā)展藍(lán)皮書火熱招編中!
-
5月31日立即下載>> 【白皮書】村田室內(nèi)外定位解決方案
-
即日-5.31立即申報(bào)>>> 維科杯·OFweek 2026光學(xué)行業(yè)年度評(píng)選
-
5月31日立即申報(bào)>>> 維科杯•OFweek 2026激光行業(yè)年度評(píng)選
- 1 紫光國微2025年報(bào)深度解析:凈利潤上漲22% 特種芯片扛起半壁江山
- 2 245億!晶科科技算力中心項(xiàng)目,落戶寧夏!
- 3 國產(chǎn)信創(chuàng)服務(wù)器之王
- 4 營收首超3300億!立訊精密,不再只是“蘋果御用”
- 5 本周家電圈:國補(bǔ)擴(kuò)大,長虹奧克斯方太追覓發(fā)力海信格力TCL小熊激戰(zhàn)
- 6 現(xiàn)在立訊精密已經(jīng)不想只給蘋果做代工了
- 7 愛瑪還沒意識(shí)到電動(dòng)自行車賣不好的真正原因
- 8 埃斯頓,一季度凈利狂增674%!
- 9 立訊精密,再收購汽車電子大資產(chǎn)!
- 10 海康威視,又一新合作官宣!
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市


分享









