您好,登錄后才能下訂單哦!
本篇內容介紹了“Hadoop3.x版本的新特性有哪些”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
Apache Hadoop 3.x在以前的主要發行版本(hadoop-2.x)上進行了許多重大改進。
現在,已針對Java 8的運行時版本編譯了所有Hadoop JAR。仍在使用Java 7或更低版本的用戶必須升級到Java 8。
糾刪碼是一種持久存儲數據的方法,可節省大量空間。與標準HDFS副本機制的3倍開銷相比,像Reed-Solomon(10,4) 這樣的標準編碼的空間開銷是1.4倍。
由于糾刪碼在重建期間會帶來額外的開銷,并且大多數情況下會執行遠程讀取,因此傳統上已將其用于存儲較冷,訪問頻率較低的數據。
在部署此功能時應考慮糾刪碼機制的網絡和CPU開銷。
關于HDFS中糾刪碼更詳細的介紹,可查看我之前寫的這篇文章: 深入剖析 HDFS 3.x 新特性-糾刪碼
Hadoop Shell腳本已被重寫,以修復許多長期存在的錯誤并包括一些新功能。Hadoop的開發人員盡管一直在尋求兼容性,但是某些更改可能會破壞現有的安裝。
MapReduce 增加了對 map 輸出收集器的本地執行的支持,對于 shuffle 密集型工作,這可以使性能提高30%或更多。
在之前的版本中,HDFS的高可用最多支持兩個NameNode。在HDFS 3.x 版本中,通過將編輯復制到法定數量的三個JournalNode,該體系結構能夠容忍系統中任何一個節點的故障。
但是,某些部署需要更高的容錯度。這個新特性啟用了這一點,該功能允許用戶運行多個備用NameNode。例如,通過配置三個NameNode和五個JournalNode,群集可以忍受兩個節點的故障,而不僅僅是一個節點的故障。
以前,多個Hadoop服務的默認端口在Linux臨時端口范圍內(32768-61000)。這意味著在啟動時,服務有時會由于與另一個應用程序的沖突而無法綁定到端口。
這些沖突的端口已移出臨時范圍,具體的端口更改如下:
NameNode 的端口: 50070 --> 9870, 8020 --> 9820, 50470 --> 9871;
Secondary NameNode 的端口: 50091 --> 9869, 50090 --> 9868;
DataNode 的端口: 50020 --> 9867, 50010 --> 9866, 50475 --> 9865, 50075 --> 9864;
Hadoop KMS 的端口: 16000 --> 9600(HBase的HMaster端口號與Hadoop KMS端口號沖突。兩者都使用16000,因此 Hadoop KMS 更改為9600)。
Hadoop現在支持與Microsoft Azure數據湖和Aliyun對象存儲系統集成,作為與Hadoop兼容的替代文件系統。
單個DataNode可管理多個磁盤。在正常的寫操作過程中,磁盤將被均勻填充。但是,添加或替換磁盤可能會導致DataNode內部出現嚴重偏差。原有的HDFS平衡器無法處理這種情況。新版本的HDFS中有平衡功能處理,該功能通過hdfs diskbalancer
CLI調用。
基于HDFS路由器的聯合添加了一個RPC路由層,該層提供了多個HDFS名稱空間的聯合視圖。這簡化了現有HDFS客戶端對聯合群集的訪問。
YARN資源模型已被通用化,以支持用戶定義的CPU和內存以外的可計數資源類型。例如,集群管理員可以定義資源,例如GPU,軟件許可證或本地連接的存儲。然后可以根據這些資源的可用性來調度YARN任務。
“Hadoop3.x版本的新特性有哪些”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。