怎么分析spark中的shuffle模塊

發布時間：2021-12-16 21:48:57 來源：億速云閱讀：113 作者：柒染欄目：云計算

怎么分析spark中的shuffle模塊，針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

一、Basic shuffle writer實現解析

在Executor上執行shuffle Map Task時，最終會調用shuffleMapTask的runTask，核心邏輯如下：

1.從sparkEnv中獲得shuffleManager；

2.從manager中獲得writer

3.調用RDD開始計算，運算結果通過writer進行持久化，持久化之前通過Aggregator來確定是否需要進行Map端聚合，然后將結果通過FileShuffleManager#forMapTask的方法寫入，寫入完成后，會將元數據信息寫入MapStatus，然后下游的Task可以通過這個MapStatus取得需要處理的數據。

這樣writer通過ShuffleDependency#partitioner來獲得下游partition的數量，下游的每個partition都會對應一個文件，文件名字的格式為：“shuffle_”+shuffledId+"_"+mapId+"_"+reduceId。

由于每個shuffle Map Task需要為每個下游的Task創建一個單獨的文件，因此文件的數量就是number(shuffle_map_task)*number(following_task)。這樣會導致創建和打開許多文件。

后來Spark又引入Shuffle Consolidate Writer，原理是core上的第一個Task創建一個文件，該core上的后面的Task的shuffle操作都追加寫入改文件，這樣文件數量number(core)*number(following_task) 。

關于怎么分析spark中的shuffle模塊問題的解答就分享到這里了，希望以上內容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么分析spark中的shuffle模塊

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

怎么分析spark中的shuffle模塊

猜你喜歡

最新資訊

相關推薦

相關標簽