中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何用mapreduce處理數據傾斜問題

發布時間:2022-01-04 10:56:17 來源:億速云 閱讀:345 作者:iii 欄目:云計算

本篇內容主要講解“如何用mapreduce處理數據傾斜問題”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何用mapreduce處理數據傾斜問題”吧!

map /reduce 程序執行時, reduce 節點大部分執行完畢,但是有一個或者幾個 reduce
節點運行很慢,導致整個程序的處理時間很長,這是因為某一個 key 的條數比其他 key 多
很多(有時是百倍或者千倍之多),這條 key 所在的 reduce 節點所處理的數據量比其他節
點就大很多,從而導致某幾個節點遲 遲運行不完,此稱之為數據傾斜.
解決方法:
(1)設置一個 hash 份數 N,用來對條數眾多的 key 進行打散。
(2)對有多條重復 key 的那份數據進行處理:從 1 到 N 將數字加在 key 后面作為新 key,
如果需要和另一份數據關聯的話,則要重寫比較類和分發類。如此實現多條 key 的平均分發。
(3)上一步之后, key 被平均分散到很多不同的 reduce 節點。如果需要和其他數據關聯,
為了保證每個 reduce 節點上都有關聯的 key,對另一份單一 key 的數據進行處理:循環的
從 1 到 N 將數字加在 key 后面作為新 key
用上述的方法雖然可以解決數據傾斜,但是當關聯的數據量巨大時,如果成倍的增長某
份數據,會導致 reduce shuffle 的數據量變的巨大,得不償失,從而無法解決運行時間慢的
問題.
在 兩份數據中找共同點,比如兩份數據里除了關聯的字段以外,還有另外相同含義的字段,
如果這個字段在所有 log 中的重復率比較小,則可以用這個字段作為計算 hash 的值,如果
是數字,可以用來模 hash 的份數,如果是字符可以用 hashcode 來模 hash 的份數(當然數
字為了避免落到同一個 reduce 上 的數據過多,也可以用 hashcode),這樣如果這個字段
的值分布足夠平均的話,就可以解決上述的問題。
解決方法: 1. 增加 reduce 的 jvm 內存 2. 增加 reduce 個數

到此,相信大家對“如何用mapreduce處理數據傾斜問題”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

长寿区| 顺平县| 社旗县| 秭归县| 房产| 漳平市| 广河县| 长垣县| 遵义县| 青岛市| 鄂伦春自治旗| 镇原县| 浪卡子县| 电白县| 黑山县| 马山县| 扎鲁特旗| 宜宾县| 阿鲁科尔沁旗| 浮山县| 耒阳市| 鸡西市| 来凤县| 静乐县| 新密市| 大荔县| 中卫市| 苏州市| 上林县| 梅州市| 天祝| 芦山县| 阿拉善左旗| 临夏市| 南陵县| 浦县| 桐庐县| 南城县| 会昌县| 屯门区| 北碚区|