您好,登錄后才能下訂單哦!
這期內容當中小編將會給大家帶來有關HPCC 和 Hadoop 的區別是什么,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。
硬件環境
通常使用基于Intel或AMD CPU的刀片服務器來構建集群系統,為了降低成本可以使用已經停止銷售的過時硬件。節點有本地內存和硬盤,通過高速交換機相連(通常為千兆交換機),如果 集群節點很多,也可以使用分層交換。集群內的節點是對等的(所有資源可以簡化為相同配置),但這一點并非必須。
操作系統
Linux或windows
系統配置
實現HPCC集群用兩種配置:數據加工(Thor)類似于Hadoop的MapReduce集群;數據分發引擎(Roxie)提供了獨立的高性能在 線查詢 處理功能和數據倉庫功能。兩種配置都可以用做分布式文件系統,不過它們試圖提高性能的實現方法不同。HPCC環境通常由兩種配置類型的多個集群組成。雖然 每個集群上的文件系統相互獨立,但是一個集群可以訪問同一環境下位于其他集群上的文件系統內的文件。
Hadoop系統軟件使用MapReduce處理范例實現了集群。這樣的集群也可以用做運行HDFS的分布式文件系統。其他的功能都處Hadoop的MapReduce和Hbase,Hive等文件系統軟件之上。
授權和維護費用
HPCC:社團版本是免費的。企業版授權費用目前取決于集群大小和系統配置的類型。
Hadoop:免費,不過有多個廠商提供不同的付費的維護服務。
核心軟件
HPCC:如果使用了Thor配置,那么核心軟件包括安裝在集群每個節點上的操作系統和多種服務,它們來實現任務的執行和分布式文件系統的訪問。名 字為 Dali的獨立服務器提供文件系統名字服務和管理HPCC環境下任務的工作單元。Thor集群可以配置為一個主節點和多個備用節點。Roxie集群是一個 對等連接的集群,它的每個節點可運行服務器和執行查詢以及密鑰和文件處理的任務代理。Roxie集群的文件系統使用分布式B+樹來存儲索引和數據,并提供 對加密數據的訪問。要對Thor和Roxie集群進行操作的話,附加的中間件組件是不可或缺的。
Hadoop:核心軟件包括操作系統、Hadoop的MapReduce集群和HDFS軟件。每個備用節點包括任務跟蹤服務和數據節點服務。主節點 包括任 務追蹤服務,任務追蹤服務可配置為獨立的硬件節點或者運行在一個備用硬件節點。類似地,對HDFS來說,要提供名字服務的話,主名字節點服務也是必須的, 并且可在一個備用的節點或者一個獨立的節點之上運行這個服務。
中間件
HPCC:中間件包括在MySQL服務器上實現的ECL代碼倉庫、編譯ECL程序和查詢的ECL服務器、ECL代理即Thor集群上管理任務執行的 客戶端 程序,ESP服務器(企業服務平臺),它提供認證、日志記錄、安全以及執行任務和提供Web服務環境的其他服務,Dali服務器,它可用作存儲任務工作單 元信息的系統數據和為分布式文件系統提供名字服務。中間件可以靈活地運行在一個到幾個節點上。多個這樣的服務器可以提供冗余備份和提高性能。
Hadoop:沒有中間件。客戶端軟件可以直接提交任務給集群主節點的任務追蹤器。作為服務器運行的Hadoop工作流調度器(HWS)的管理需要多個MapReduce序列的任務的功能正在開發中。
系統工具
HPCC包括用于管理、維護和監視HPCC配置和環境的客戶端和操作工具套件。這個套件包括ECL IDE、程序開發環境、屬性遷移工具、分布式文件應用(DFU)、環境配置應用和Roxie配置應用。命令行版本也可用。ECLWatch是一個監控 HPCC環境的基于Web的應用程序,它包括隊列管理,分布式文件系統管理、任務監視和系統性能監視工具。其他工具是通過Web服務接口提供的。
Hadoop:dfsadmin工具提供文件系統的狀態信息;fsck是一個檢查HDFS上文件的健康性的應用;數據節點塊掃描器定時地驗證數據節 點上所 有的存儲塊;平衡器根據需要把超負荷的數據節點上的阻塞重新發布到低負荷的數據節點上。MapReduce的WEB用戶接口包括顯示正在運行的和已經完成 的任務信息的任務追蹤器頁面;對一個具體的任務再向下點擊的話就可以看到這個任務的詳細信息。還有顯示Map和Reduce任務信息的任務頁面。
易部署
HPCC:環境配置工具。源服務器有一個集中式倉庫,它分發操作系統級別的設置、服務和二進制文件到配置中所有可網絡啟動的節點上。
Hadoop:需要第三方應用向導提供的在線工具協助。需要手動部署RPM。
分布式文件系統
HPCC:Thor的分布式文件系統是面向記錄的,使用本地Linux文件系統存儲部分文件。文件是跨節點初始化裝載的(提取的),并且每個節點都 有一個 單獨的部分文件,對一個分布式文件來說,這個部分文件可為空。在由用戶指定的偶數個記錄/文檔范圍內對文件進行分割。主備結構通過存儲在獨立服務器的名字 服務和文件映射信息來分割。每個節點只需要一個本地文件來表示一個分布式文件。同一環境下多個集群之間也支持讀寫訪問權限設置。使用特定的適配器允許訪問 來自外部數據庫的比如MySQL的文件,允許事務數據與分布式文件數據合并且并入批處理的任務中。Roxie分布式文件系統使用了分布式B+樹索引文件, 這樣的文件包含了鍵值信息和存儲在每個節點的本地文件里的數據。
Hadoop:面向塊的,大多數安裝使用大小為64MB或者128MB的塊。塊是以節點的本地Unix/Linux文件系統的獨立單元/本地文件存 儲的。 每個塊的元數據信息存儲為一個獨立的文件。主備結構使用了單獨的名字節點提供名字服務和塊映射,并且使用了多個數據節點。文件劃分為塊并且分布地存儲在集 群的各個節點。跨節點存儲在一個節點上每個邏輯塊的多個本地文件(一個用來保存塊數據、一個用來保存元數據)來表示一個分布式文件。
容錯性
HPCC:Thor和Roxie的分布式文件系統(可配置)在其他節點上保存了部分文件的副本,以防止磁盤或者節點失效。Thor系統在一個節點失 效之后 提供了要么自動要么手動的切換和熱啟動,任務從最近一次檢查點重新啟動或者繼續運行。當復制數據到一個新的節點的時候,副本的制作自動進行。Roxie系 統在減少節點數而引起節點失效時繼續運行。
Hadoop:HDFS(可配置)在其他節點上存儲(用戶指定的)多個副本,以防止由于自動恢復出現的磁盤或節點失效。MapReduce架構包括了試探性執行,當檢測到一個慢的或者失敗的Map任務時,其他Map任務將從失效的節點處開始恢復。
上述就是小編為大家分享的HPCC 和 Hadoop 的區別是什么了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。