亚洲熟女综合色一区二区三区四区,日韩国产亚洲欧美一区二区三区,天天美剧,人妻精品一区二区无码在饯

Shuffle核心概念、Shuffle調(diào)優(yōu)及故障排除

2021-03-23 14:42

三、 SortShuffle解析

SortShuffleManager的運(yùn)行機(jī)制主要分成兩種，一種是普通運(yùn)行機(jī)制，另一種是bypass運(yùn)行機(jī)制。當(dāng)shuffle read task的數(shù)量小于等于spark．shuffle．sort．bypassMergeThreshold參數(shù)的值時(shí)（默認(rèn)為200），就會啟用bypass機(jī)制。

1．普通運(yùn)行機(jī)制

在該模式下，數(shù)據(jù)會先寫入一個(gè)內(nèi)存數(shù)據(jù)結(jié)構(gòu)中，此時(shí)根據(jù)不同的shuffle算子，可能選用不同的數(shù)據(jù)結(jié)構(gòu)。如果是reduceByKey這種聚合類的shuffle算子，那么會選用Map數(shù)據(jù)結(jié)構(gòu)，一邊通過Map進(jìn)行聚合，一邊寫入內(nèi)存；如果是join這種普通的shuffle算子，那么會選用Array數(shù)據(jù)結(jié)構(gòu)，直接寫入內(nèi)存。接著，每寫一條數(shù)據(jù)進(jìn)入內(nèi)存數(shù)據(jù)結(jié)構(gòu)之后，就會判斷一下，是否達(dá)到了某個(gè)臨界閾值。如果達(dá)到臨界閾值的話，那么就會嘗試將內(nèi)存數(shù)據(jù)結(jié)構(gòu)中的數(shù)據(jù)溢寫到磁盤，然后清空內(nèi)存數(shù)據(jù)結(jié)構(gòu)。

在溢寫到磁盤文件之前，會先根據(jù)key對內(nèi)存數(shù)據(jù)結(jié)構(gòu)中已有的數(shù)據(jù)進(jìn)行排序。排序過后，會分批將數(shù)據(jù)寫入磁盤文件。默認(rèn)的batch數(shù)量是10000條，也就是說，排序好的數(shù)據(jù)，會以每批1萬條數(shù)據(jù)的形式分批寫入磁盤文件。寫入磁盤文件是通過Java的BufferedOutputStream實(shí)現(xiàn)的。BufferedOutputStream是Java的緩沖輸出流，首先會將數(shù)據(jù)緩沖在內(nèi)存中，當(dāng)內(nèi)存緩沖滿溢之后再一次寫入磁盤文件中，這樣可以減少磁盤IO次數(shù)，提升性能。

一個(gè)task將所有數(shù)據(jù)寫入內(nèi)存數(shù)據(jù)結(jié)構(gòu)的過程中，會發(fā)生多次磁盤溢寫操作，也就會產(chǎn)生多個(gè)臨時(shí)文件。最后會將之前所有的臨時(shí)磁盤文件都進(jìn)行合并，這就是merge過程，此時(shí)會將之前所有臨時(shí)磁盤文件中的數(shù)據(jù)讀取出來，然后依次寫入最終的磁盤文件之中。此外，由于一個(gè)task就只對應(yīng)一個(gè)磁盤文件，也就意味著該task為下游stage的task準(zhǔn)備的數(shù)據(jù)都在這一個(gè)文件中，因此還會單獨(dú)寫一份索引文件，其中標(biāo)識了下游各個(gè)task的數(shù)據(jù)在文件中的start offset與end offset。

SortShuffleManager由于有一個(gè)磁盤文件merge的過程，因此大大減少了文件數(shù)量。比如第一個(gè)stage有50個(gè)task，總共有10個(gè)Executor，每個(gè)Executor執(zhí)行5個(gè)task，而第二個(gè)stage有100個(gè)task。由于每個(gè)task最終只有一個(gè)磁盤文件，因此此時(shí)每個(gè)Executor上只有5個(gè)磁盤文件，所有Executor只有50個(gè)磁盤文件。

普通運(yùn)行機(jī)制的SortShuffleManager工作原理如下圖所示：

普通運(yùn)行機(jī)制的SortShuffleManager工作原理2． bypass運(yùn)行機(jī)制

bypass運(yùn)行機(jī)制的觸發(fā)條件如下：

shuffle map task數(shù)量小于spark．shuffle．sort．bypassMergeThreshold＝200參數(shù)的值。不是聚合類的shuffle算子。

此時(shí)，每個(gè)task會為每個(gè)下游task都創(chuàng)建一個(gè)臨時(shí)磁盤文件，并將數(shù)據(jù)按key進(jìn)行hash然后根據(jù)key的hash值，將key寫入對應(yīng)的磁盤文件之中。當(dāng)然，寫入磁盤文件時(shí)也是先寫入內(nèi)存緩沖，緩沖寫滿之后再溢寫到磁盤文件的。最后，同樣會將所有臨時(shí)磁盤文件都合并成一個(gè)磁盤文件，并創(chuàng)建一個(gè)單獨(dú)的索引文件。

該過程的磁盤寫機(jī)制其實(shí)跟未經(jīng)優(yōu)化的HashShuffleManager是一模一樣的，因?yàn)槎家獎?chuàng)建數(shù)量驚人的磁盤文件，只是在最后會做一個(gè)磁盤文件的合并而已。因此少量的最終磁盤文件，也讓該機(jī)制相對未經(jīng)優(yōu)化的HashShuffleManager來說，shuffle read的性能會更好。

而該機(jī)制與普通SortShuffleManager運(yùn)行機(jī)制的不同在于：第一，磁盤寫機(jī)制不同；第二，不會進(jìn)行排序。也就是說，啟用該機(jī)制的最大好處在于，shuffle write過程中，不需要進(jìn)行數(shù)據(jù)的排序操作，也就節(jié)省掉了這部分的性能開銷。

bypass運(yùn)行機(jī)制的SortShuffleManager工作原理如下圖所示：

bypass運(yùn)行機(jī)制的SortShuffleManager工作原理

四、map和reduce端緩沖區(qū)大小

在Spark任務(wù)運(yùn)行過程中，如果shuffle的map端處理的數(shù)據(jù)量比較大，但是map端緩沖的大小是固定的，可能會出現(xiàn)map端緩沖數(shù)據(jù)頻繁spill溢寫到磁盤文件中的情況，使得性能非常低下，通過調(diào)節(jié)map端緩沖的大小，可以避免頻繁的磁盤IO操作，進(jìn)而提升Spark任務(wù)的整體性能。

map端緩沖的默認(rèn)配置是32KB，如果每個(gè)task處理640KB的數(shù)據(jù)，那么會發(fā)生640／32 ＝ 20次溢寫，如果每個(gè)task處理64000KB的數(shù)據(jù)，即會發(fā)生64000／32＝2000次溢寫，這對于性能的影響是非常嚴(yán)重的。

map端緩沖的配置方法：

val conf ＝ new SparkConf（）
．set（＂spark．shuffle．file．buffer＂，＂64＂）

Spark Shuffle過程中，shuffle reduce task的buffer緩沖區(qū)大小決定了reduce task每次能夠緩沖的數(shù)據(jù)量，也就是每次能夠拉取的數(shù)據(jù)量，如果內(nèi)存資源較為充足，適當(dāng)增加拉取數(shù)據(jù)緩沖區(qū)的大小，可以減少拉取數(shù)據(jù)的次數(shù)，也就可以減少網(wǎng)絡(luò)傳輸?shù)拇螖?shù)，進(jìn)而提升性能。

reduce端數(shù)據(jù)拉取緩沖區(qū)的大小可以通過spark．reducer．maxSizeInFlight參數(shù)進(jìn)行設(shè)置，默認(rèn)為48MB。該參數(shù)的設(shè)置方法如下：

reduce端數(shù)據(jù)拉取緩沖區(qū)配置：

val conf ＝ new SparkConf（）
．set（＂spark．reducer．maxSizeInFlight＂，＂96＂）

五、reduce端重試次數(shù)和等待時(shí)間間隔

Spark Shuffle過程中，reduce task拉取屬于自己的數(shù)據(jù)時(shí)，如果因?yàn)榫W(wǎng)絡(luò)異常等原因?qū)е率詣舆M(jìn)行重試。對于那些包含了特別耗時(shí)的shuffle操作的作業(yè)，建議增加重試最大次數(shù)（比如60次），以避免由于JVM的full gc或者網(wǎng)絡(luò)不穩(wěn)定等因素導(dǎo)致的數(shù)據(jù)拉取失敗。在實(shí)踐中發(fā)現(xiàn)，對于針對超大數(shù)據(jù)量（數(shù)十億～上百億）的shuffle過程，調(diào)節(jié)該參數(shù)可以大幅度提升穩(wěn)定性。

reduce端拉取數(shù)據(jù)重試次數(shù)可以通過spark．shuffle．io．maxRetries參數(shù)進(jìn)行設(shè)置，該參數(shù)就代表了可以重試的最大次數(shù)。如果在指定次數(shù)之內(nèi)拉取還是沒有成功，就可能會導(dǎo)致作業(yè)執(zhí)行失敗，默認(rèn)為3，該參數(shù)的設(shè)置方法如下：

reduce端拉取數(shù)據(jù)重試次數(shù)配置：

val conf ＝ new SparkConf（）
．set（＂spark．shuffle．io．maxRetries＂，＂6＂）

Spark Shuffle過程中，reduce task拉取屬于自己的數(shù)據(jù)時(shí)，如果因?yàn)榫W(wǎng)絡(luò)異常等原因?qū)е率詣舆M(jìn)行重試，在一次失敗后，會等待一定的時(shí)間間隔再進(jìn)行重試，可以通過加大間隔時(shí)長（比如60s），以增加shuffle操作的穩(wěn)定性。

reduce端拉取數(shù)據(jù)等待間隔可以通過spark．shuffle．io．retryWait參數(shù)進(jìn)行設(shè)置，默認(rèn)值為5s，該參數(shù)的設(shè)置方法如下：

reduce端拉取數(shù)據(jù)等待間隔配置：

val conf ＝ new SparkConf（）
．set（＂spark．shuffle．io．retryWait＂，＂60s＂）