hadoop層面性能如何調優

發布時間：2021-12-08 11:13:27 來源：億速云閱讀：122 作者：小新欄目：云計算

這篇文章主要為大家展示了“hadoop層面性能如何調優”，內容簡而易懂，條理清晰，希望能夠幫助大家解決疑惑，下面讓小編帶領大家一起研究并學習一下“hadoop層面性能如何調優”這篇文章吧。

hadoop 層面性能調優

1. 守護進行內存調優

a）NameNode 和 DataNode 內存調整在 hadoop-env.sh 文件中

NameNode： ExportHADOOP_NAMENODE_OPTS="-Xmx512m-Xms512m -Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS"

DataNode：

export HADOOP_DATANODE_OPTS="-Xmx256m -Xms256m -Dhadoop.security.logger=ERROR,RFAS $HADOOP_DATANODE_OPTS"

-Xmx -Xms 這兩個參數一般保持一致，以避免每次垃圾回收完成后 JVM 重新分配內存。

b）REsourceManager 和 NodeManager 內存調整在 yarn-env.sh 文件中

REsourceManager：

export YARN_RESOURCEMANAGER_HEAPSIZE=1000 默認 export YARN_RESOURCEMANAGER_OPTS="..........."可以覆蓋上面的值

NodeManager：

export YARN_NODEMANAGER_HEAPSIZE=1000 默認export YARN_NODEMANAGER_OPTS="";可以覆蓋上面的值

常駐內存經驗配置：

namenode:16G

datanode:2-4G

ResourceManager:4G
NodeManager:2G

Zookeeper：4G

Hive Server：2G

2. mr中間目錄要配置多個，分散IO 壓力

http://hadoop.apache.org/docs/r2.6.0/

配置文件yarn-default.xml 分散 IO 壓力

yarn.nodemanager.local-dirs

yarn.nodemanager.log-dirs

配置文件 mapred-default.xml：

mapreduce.cluster.local.dir

配置文件 hdfs-default.xml：提高可靠性

dfs.namenode.name.dir
dfs.namenode.edits.dir

dfs.datanode.data.dir

3. mr中間結果要壓縮

a）配置 mapred-site.xml 文件中配置

<name>mapreduce.map.output.compress</name>

</property>

<name>mapreduce.map.output.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>
程序運行時指定參數 hadoop jar /home/hadoop/tv/tv.jar MediaIndex -Dmapreduce.compress.map.output=true -Dmapreduce.map.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec /tvdata /media

b）使用合理的壓縮算法（cpu 和磁盤） cpu：如果是 cpu 的瓶頸，可以更換速度快的壓縮算法磁盤：如果是磁盤的瓶頸，可以更換壓縮力度大的壓縮算法一般情況我們使用 snappy 壓縮，比較均衡 lzo

4. hdfs文件系統中避免，大量小文件存在

5. 根據具體情況，在 Map 節點使用 Combiner，減少輸出結果

6. 重用 Writable 類型

比如聲明一個對象 Text word = new Text(); map(),reduce()方法里面重用

7. 根據集群節點具體情況，調整 task 的并行度

設置 map 和 reduce 最大任務個數：

mapreduce.tasktracker.map.tasks.maximum

mapreduce.tasktracker.reduce.tasks.maximum

配置文件 mapred-default.xml：

設置 map 和 reduce 單個任務內存大小：

mapreduce.map.memory.mb 1G 默認

mapreduce.reduce.memory.mb 1G 默認

8. 要有效的監控手段(使用nmon，條件允許會部署ganglia搜集各種指標，分析指標發現瓶頸，然后指定措施)

硬件層面性能調優：

機架分開，節點均勻放置

操作系統層面性能調優：

多個網卡：多網卡綁定，做負載均衡或者主備

磁盤：多個磁盤掛載到不同目錄下，存放數據做計算的磁盤不要做 raid

集群規劃：

集群節點內存分配：

比如一個數據節點，假如 task 并行度為 8 DataNode（2~4G）+ NodeManager（2G）+Zookeeper（4G）+1G（單個任務默認大小）*8=16G~18G

集群規模：假如每天數據 1T 數據保存一個月，每個節點硬盤 2T 1T*3(副本)*30（天）=90T=n*2T*（60~70%） n=60 節點左右企業中數據保留 7 天 15 天比較常見，數據比較重要的話 1 個月

以上是“hadoop層面性能如何調優”這篇文章的所有內容，感謝各位的閱讀！相信大家都有了一定的了解，希望分享的內容對大家有所幫助，如果還想學習更多知識，歡迎關注億速云行業資訊頻道！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

hadoop層面性能如何調優

hadoop 層面性能調優

1. 守護進行內存調優

2. mr中間目錄要配置多個，分散IO 壓力

3. mr中間結果要壓縮

4. hdfs文件系統中避免，大量小文件存在

5. 根據具體情況，在 Map 節點使用 Combiner，減少輸出結果

6. 重用 Writable 類型

7. 根據集群節點具體情況，調整 task 的并行度

8. 要有效的監控手段(使用nmon，條件允許會部署ganglia搜集各種指標，分析指標發現瓶頸，然后指定措施)

硬件層面性能調優：

集群規劃：

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

hadoop層面性能如何調優

hadoop 層面性能調優

1. 守護進行內存調優

2. mr中間目錄要配置多個，分散IO 壓力

3. mr中間結果要壓縮

4. hdfs文件系統中避免，大量小文件存在

5. 根據具體情況，在 Map 節點使用 Combiner，減少輸出結果

6. 重用 Writable 類型

7. 根據集群節點具體情況，調整 task 的并行度

8. 要有效的監控手段(使用nmon，條件允許會部署ganglia搜集各種指標，分析指標發現瓶頸，然后指定措施)

硬件層面性能調優：

集群規劃：

猜你喜歡

最新資訊

相關推薦

相關標簽