hadoop的指標類型和日志

發布時間：2020-06-10 17:09:10 來源：億速云閱讀：499 作者：元一欄目：大數據

Hadoop概念

Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。

Hadoop 是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。

Hadoop 是高效的，因為它以并行的方式工作，通過并行處理加快處理速度。

Hadoop 還是可伸縮的，能夠處理 PB 級數據。

此外，Hadoop 依賴于社區服務，因此它的成本比較低，任何人都可以使用。

Hadoop是一個能夠讓用戶輕松架構和使用的分布式計算平臺。用戶可以輕松地在Hadoop上開發和運行處理海量數據的應用程序。它主要有以下幾個優點：

1.高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

2.高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

3.高效性。Hadoop能夠在節點之間動態地移動數據，并保證各個節點的動態平衡，因此處理速度非常快。

4.高容錯性。Hadoop能夠自動保存數據的多個副本，并且能夠自動將失敗的任務重新分配。

5.低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟件成本因此會大大降低。

Hadoop 指標類型

Hadoopde 守護進程的指標根據它們所屬的上下文可以分為不同的組，如下所述：

JVM指標:這些指標由集群中運行的JVM產生包括JVM堆大小和垃圾回收相關指標，例如當前的堆內存（MemHeapUsed）的使用情況和總GC計數（GcCount）。

RPC指標：rpc上下文中的指標包括主機名和端口等，還包括諸如發生字節數（SentBytes）、當前打卡連接數（NumOpenConnections）和認證失敗次數等指標。

DFS指標：dfs上下文中包括與NameNode、HDFS文件系統、DataNodes和JournalNodes相關指標，DFS指標可以告訴集群中是否存在大量的文件創建和刪除操作。

Hadoop的日志消息

可以通過瀏覽各個日志文件或通過Hadoop內置的web界面訪問Spark和其他作業的hadoop日志消息。大多數時候，通過web界面訪問日志更好，因為可以節省時間，并快速找到發生性能問題或者作業失敗的原因：

Hadoop生成兩種主要類型的日志：

它為守護程序（如NameNode和DataNode）生成日志。守護進程日志主要由管理員使用，因為它們有助與排除DataNode和NameNode等關鍵Hadoop服務的意外故障。

Hadoop還為集群中的運行的每個應用程序生成日志，hadoop應用程序日志可以用于開發人員了解作業失敗和性能下降的原因。

可以通過多種方式查看hadoop的日志

Hadoop web UI 特別是ResourceManager webUi可以免除訪問日志存儲位置和查看日志文件的麻煩，還可以通過JobHistory web UI 查看日志

直接從日志文件檢查日志信息

對于某些應用程序日志，如果開啟了日志聚合功能則將他們聚合到HDFS存儲。

通過yarn命令檢查：

yarn application命令可以管理一下任務：

列出集群中運行的應用程序

殺死正在運行的的應用程序

獲取正在運行的應用程序的狀態。

查看Yarn應用程序

yarn application -list 可以檢索所有作業的列表，不考慮它們的狀態。作業可以具有以下狀態：All、NEW、NEW_SAVING、SUMBMITTED、ACCEPTED、RUNNING、FINISHED、FAILED和KILLED。指定-appStates選項即可

yarn application -list -appStates running

檢查應用程序的狀態

yarn application -status <application_id>

kill正在執行的的作業

yarn application -kill <application_id>

檢查節點狀態

yarn node -all -list 列出集群的所有節點及其狀態

獲取作業日志

yarn logs 名利的語法：

yarn logs -applicationId <application_id>

只能獲取已經結束的運行的作業的日志。

Hadoop存儲日志的位置

1、hdfs：這是hadoop創建用于存儲作業執行文件（如包含運行作業hadoop參數的job.xml）的暫存目錄的位置。

2、NodeManager本地目錄：這是在本地文件系統上創建的目錄，hadoop在其中存儲由NodeManager服務生產的Shell腳本，以便執行ApplicationMaster容器。可以使用yarn-site.xml文件中的yarn.nodemanager.local.dir參數指定NodeManger本地目錄位置。

此參數可以提供NodeManager存儲其本地文件的目錄列表。在這些目錄下實際應用程序的本地文件目錄${yarn.nodemanager.local-dir}/usercache/user/....。每個NodeManager在NodeManager本地目錄下的本地應用程序緩存中

3、NodeManger日志目錄：這是linux上本地目錄，NodeManager在此存儲用戶運行的應用程序的實際日志文件。在此節點的NodeManager上執行作業的所有容器及其應用程序日志存儲在此目錄中。使用yarn.nodemanager.log-dirs參數指定NodeManager日志目錄的位置。

不需要擔心nm-local-dirs目錄會填滿appcache子目錄下的作業文件，這些文件在作業完成時會被自動刪除。但是某些作業確實包含大文件，配置屬性yarn.nodemanager.delete.debug-delay-sec指定在應用程序后就保留本地日志目錄的時間，一點配置時間到期，NodeManager的deletionservicehi刪除應用程序本地文件目錄結構。

Hadoop存儲日志聚合

啟用日志聚合之后，nodemanager會將所有容器日志連接到一個文件中并將它保存在HDFS中，可以使用yarn.nodemanager.remote-app-log-dir參數配置hadoop 在hdfs的哪里存儲聚合日志。一般配置在/tmp/hadoop/logs/

三種方式獲取應用程序日志

1、從hdfs中獲取

2、通過hadoop 從web UI看，在未結束的應用的中點擊applicationmaster，點擊頁簽下面的logs

3、作業完成之后從JobHistoryServer UI查看

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

hadoop的指標類型和日志

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

hadoop的指標類型和日志

猜你喜歡

最新資訊

相關推薦

相關標簽