中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Hadoop Combiner使用方法詳解

發布時間:2020-09-19 13:51:05 來源:腳本之家 閱讀:190 作者:csguo007 欄目:編程語言

Hadoop Combiner使用方法詳解

Combiner函數是一個可選的中間函數,發生在Map階段,Mapper執行完成后立即執行。使用Combiner有如下兩個優勢:

  1. Combiner可以用來減少發送到Reducer的數據量,從而提高網絡效率。
  2. Combiner可以用于減少發送到Reducer的數據量,這將提高Reduce端的效率,因為每個reduce函數將處理相對較少記錄,相比于未使用Combiner之前。

Combiner與Reducer結構相同,因為Combiner和Reducer都對Mapper的輸出進行處理。這給了我們一個復用Reducer作為Combiner的好機會。但問題是,復用Reducer作為Combiner總是是一個好主意嗎?

特點:

Combiners是MapReduce中的一個優化,允許在shuffle和排序階段之前在本地進行聚合。Combiners的首要目標是通過最小化鍵值對的數量來節省盡可能多的帶寬

Reducer作為Combiner的適用場景

假設我們正在編寫一個MapReduce程序來計算股票數據集中每個股票代碼的最大收盤價。Mapper將數據集中每個股票記錄的股票代碼作為key和收盤價作為value。Reducer然后將循環遍歷股票代碼對應的所有收盤價,并從收盤價列表中計算最高收盤價。假設Mapper 1 處理 股票代碼為ABC 的3個記錄,收盤價分別為50,60和111。讓我們假設Mapper 2 處理股票代碼為ABC的2個記錄,收盤價分別為100和31。那么Reducer將收到股票代碼ABC五個收盤價---50,60,111,100和31。Reducer的工作非常簡單,它將簡單地循環遍歷所有收盤價,并將計算最高收盤價為111。

我們可以在每個Mapper之后使用相同的Reducer作為Combiner。Mapper 1 上的Combiner將處理3個收盤價格--50,60和111,并且僅輸出111,因為它是3個收盤價的最大值。Mapper 2 上的Combiner將處理2個收盤價格--100和31,并且僅輸出100,因為它是2個收盤價的最大值。現在使用Combiner之后,Reducer僅處理股票代碼ABC的2個收盤價(原先需要處理5個收盤價),即來自Mapper 1 的111和來自Mapper 2 的100,并且將從這兩個值中計算出最大收盤價格為111。

正如我們看到的,使用Combiner情況下Reducer輸出與沒有使用Combiner的輸出結果是相同的,因此在這種情況下復用Reducer作為

Combiner是沒有問題。

Reducer作為Combiner的不適用場景

假設我們正在編寫一個MapReduce程序來計算股票數據集中每個股票代碼的平均交易量(average volume for each symbol)。Mapper將數據集中每個股票記錄的股票代碼作為key和交易量(volume)作為value。Reducer然后將循環遍歷股票代碼對應的所有交易量,并從交易量列表中計算出平均交易量(average volume from the list of volumes for that symbol)。假設Mapper 1 處理 股票代碼為ABC 的3個記錄,收盤價分別為50,60和111。讓我們假設Mapper 2 處理股票代碼為ABC的2個記錄,收盤價分別為100和31。那么Reducer將收到股票代碼ABC五個收盤價---50,60,111,100和31。Reducer的工作非常簡單,它將簡單地循環遍歷所有交易量,并將計算出平均交易量為70.4。

50 + 60 + 111 + 100 + 31 / 5 = 352 / 5 = 70.4

讓我們看看如果我們在每個Mapper之后復用Reducer作為Combiner會發生什么。Mapper 1 上的Combiner將處理3個交易量--50,60和111,并計算出三個交易量的平均交易量為73.66。

Mapper 2 上的Combiner將處理2個交易量--100和31,并計算出兩個交易量的平均交易量為65.5。那么在復用Reducer作為Combiner的情況下,Reducer僅處理股票代碼ABC的2個平均交易量,來自Mapper1的73.66 和 來自Mapper2的65.5,并計算股票代碼ABC最終的平均交易量為69.58。

73.66 + 65.5 /2 = 69.58

這與我們不復用Reducer作為Combiner得出的結果不一樣,因此復用Reducer作為Combiner得出平均交易量是不正確的。

所以我們可以看到Reducer不能總是被用于Combiner。所以,當你決定復用Reducer作為Combiner的時候,你需要問自己這樣一個問題 - 使用Combiner與不使用Combiner的輸出結果是否一樣?

如有疑問請留言或者到本站社區交流討論,感謝閱讀,希望能幫助到大家,謝謝大家對本站的支持!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

澄迈县| 沿河| 望谟县| 石林| 彰化县| 青铜峡市| 永靖县| 达州市| 乐陵市| 武穴市| 古交市| 当雄县| 沙洋县| 印江| 东台市| 兴和县| 郴州市| 六枝特区| 马公市| 临邑县| 宣汉县| 都匀市| 丰县| 扎鲁特旗| 绥棱县| 云和县| 葫芦岛市| 哈尔滨市| 克什克腾旗| 五常市| 清河县| 仁布县| 涪陵区| 乌兰浩特市| 太仓市| 达拉特旗| 吉木萨尔县| 榕江县| 浦江县| 合作市| 平原县|