企業級大數據技術體系是什么樣的

發布時間：2022-01-18 10:51:59 來源：億速云閱讀：247 作者：柒染欄目：大數據

今天給大家介紹一下企業級大數據技術體系是什么樣的。文章的內容小編覺得不錯，現在給大家分享一下，覺得有需要的朋友可以了解一下，希望對大家有所幫助，下面跟著小編的思路一起來閱讀吧。

做你沒做過的事叫成長，做你不愿做的事叫改變，做你不敢做的事叫突破。

企業級大數據技術體系是什么樣的

企業級大數據技術框架（六層大數據技術體系）

1、數據收集層：分布式、異構性、多樣化、流式產生

主要由關系型和非關系型數據收集組件，分布式消息隊列構成。

Sqoop/Canal：關系型數據收集和導入工具，是連接關系型數據庫和Hadoop的橋梁，Sqoop可將關系型數據庫的數據全量導入Hadoop，反之亦然。而Canal可用于實時數據的增量導入

Flume：非關系型數據收集工具，主要是流式日志數據，可近實時收集，經過濾，聚集后加載到HDFS等存儲系統

Kafka：分布式消息隊列，一般作為數據總線使用，它允許多個數據消費者訂閱并獲取感興趣的數據。

2、數據存儲層

主要由分布式文件系統（面向文件存儲）和分布式數據庫（面向行/列的存儲）構成。

HDFS：Hadoop分布式文件系統，Google GFS的開源實現，具有良好的擴展性和容錯性，目錄已支撐各種類型的數據存儲格式，包括SSTable，文本文件，二進制key/value格式Sequence File，列式存儲格式Parquet，ORC和Carbondata等。

Hbase：構建在HDFS之上的分布式數據庫，需要用戶存儲結構化與半結構化數據，支持行列無限擴展及數據隨機查找與刪除。

Kudu：分布式列數據庫，允許用戶存儲結構化數據，支持行無限擴展以及數據的隨機查找與更新。

3、資源管理與服務協調層：共享集群資源（優點：資源利用率高、運維成本低、數據共享）

YARN：統一資源管理與調度系統，它能夠管理集群中的各種資源（eg：CPU、內存等），并按照一定的策略分配個上層各類應用，YARN內置了多種多租戶資源調度器，允許用戶按照隊列的方式組織和管理資源，且每個隊列的調度機制可獨立定制。

ZooKeeper：基于簡化的Paxos協議實現的服務協調系統，他提供了類似于文件系統的數據模型，允許用戶通過簡單的API實現leader選舉、服務命名、分布式隊列與分布式鎖等復雜的分布式通用模塊。

4、計算引擎層

包括批處理（時間要求低，高吞吐）、交互式處理（時間要求比較高，sql查詢）、流式實時處理（時間要求非常高、廣告投放等）三種引擎。

MapReduce/Tez：MapReduce是一個經典的批處理計算引擎，具體良好的擴展性與容錯性，允許用戶通過簡單Api編寫分布式程序；Tez是基于MapReduce開發的通用DAG（有向無環圖）計算引擎，能夠更加高效地實現復雜的數據處理邏輯，目前被應用在hive、pig等數據分析系統中。

Spark：通用的DAG計算引擎，它提供了基于RDD的數據抽象表示，允許用戶充分利用內存進行快速的數據挖掘和分析。

Impala/Presto：開源的MPP系統，允許用戶使用標準的SQL處理存儲在Hadoop中的數據。它們采用了并行數據庫架構，內置了查詢優化器，查詢下推，代碼生成等優化機制，使得大數據處理效率大大提高。

Storm/Spark Streaming：分布式流式實時計算引擎，具有良好的容錯性與擴展性，能夠高效的處理流式數據，它允許用戶通過簡單的API完成實時應用程序開發。

5、數據分析層

為方便用戶解決大數據問題而提供的各種數據分析工具。

Hive/Pig/SparkSQL：在計算引擎只是構建的支撐SQL或者腳本語言的分析系統，大大降低了用戶進行大數據分析的門檻。其中hive是基于MapReduce/Tez實現的sql引擎，pig是基于MapReduce/Tez實現的工作流引擎，SparkSQL是基于spark實現的sql引擎。

Mahout/MLib：在計算引擎上構建的機器學習庫，實現常用的機器學習和數據挖掘算法Mahout最初是基于MapReduce實現的，目前正遷移到spark，mlib是基于spark實現的。

Apache Beam/Cascading:基于各類計算框架而封裝的高級API,方便構建復雜的流水線。Apache Beam統一了批處理和流式處理兩類計算框架，提供了更高級的API方便用戶編寫與具體計算引擎無關的邏輯代碼；Cascading內置了查詢計劃優化器，能夠自動優化用戶實現的數據流。采用了面向tuple的數據模型，如果你的數據可表示成類似與數據庫行的格式，使用Cascading處理將變得很容易。

6、數據可視化層

應用UI展示，比如：運籌帷幄的Dashboard、火眼金睛的用戶分析平臺。

以上就是企業級大數據技術體系是什么樣的的全部內容了，更多與企業級大數據技術體系是什么樣的相關的內容可以搜索億速云之前的文章或者瀏覽下面的文章進行學習哈！相信小編會給大家增添更多知識,希望大家能夠支持一下億速云！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

企業級大數據技術體系是什么樣的

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

企業級大數據技術體系是什么樣的

猜你喜歡

最新資訊

相關推薦

相關標簽