中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

讓我們一起走進大數據開源項目--第1節

發布時間:2020-06-03 17:07:21 來源:網絡 閱讀:445 作者:哈斗篷 欄目:大數據

最近大數據領域最火的消息莫過于Pivotal兌現了其年初對于開源其大數據核心產品GemFire,HAWQ,Greemplum DB的承諾 。這個消息也讓Pivotal在國內技術社區風風光光的火了一把,程序猿們可以看到真正的企業級數據倉庫是如何設計和實現的。

與此同時,開源社區中也存在很多類似的優秀大數據相關項目,涵蓋了分布式數據存儲與計算,數據處理,數據倉庫,機器學習等與數據有關的方方面面,下面就讓我們看看開源社區中的這些大數據項目典型代表。

首先,說起大數據開源項目,第一個必須要提的當然就是Apache Hadoop下的三個子項目Apache HDFS,Apache MapReduce,Apache YARN,這基本上可以認為是大數據處理的國際標準,是整個大數據生態系統的基石。

分布式存儲

在分布式存儲領域,可以按存儲模型分為文件系統,KV存儲,Columnar存儲,Document存儲,Graph存儲。

分布式文件系統是整個分布式存儲的最底層,鼻祖正是Google大名鼎鼎的GFS。Apache HDFS是GFS的開源版本,應該不用再介紹了。RedHat GlusterFS作為Linux社區老大的產品,也是值得一看的。

KV存儲是最簡單的存儲模型,比較典型的系統包括Amazon DynamoDB, Memcached,Redis,BerkeleyDB, Google LevelDB

Columnar存儲是KV存儲的直接擴展,Value對應Column family或是Column Map。這類系統最基本的是Apache HBase,Google早期三架馬車之一BigTable開源版本,類似的還有ApacheCassandra,Hypertable, Facebook HydraBase。

Document存儲主要有MongoDB, Facebook Apollo等。Graph存儲系統大部分基于Google的Pregel,主要開源實現有:Apache Giraph,Apache Spark Bagel,Phoebus。另外Google也開源了自家的Graph數據庫Cayley。

分布式計算

分布式計算方面,主要體現在各種計算框架,數據處理模型,典型代表有Apache MapReduce,最經典的大數據處理引擎。Apache Spark,目前最火的大數據處理引擎,速度相比MapReduce有數量級的提升,基于Spark也構建了一整套生態系統,SQL,Streaming,Machine Learning,Graph。其他的項目包括Apache Storm,Apache Pig,Apache Tez,Apache S4, OpenMPI等。

分布式任務調度

分布式任務調度與集群管理,這類系統主要實現分布式任務管理,資源調度,集群管理等基礎任務,包括Apache YARN,Apache Aurora,Apache Falcon,Apache Oozie,Linkedin Azkaban,Apache Ambari,Apache Bigtop, Apache Mesos等。

SQL與SQL-like處理,這類系統正是Pivotal開源的主要產品形態,基本上是在分布式系統上搭建SQL查詢引擎,有傳統的MPP SQL數據庫,SQL-on-Hadoop,也有SQL-like類的大數據查詢系統。包括Greenplum DB,Apache Hive, Apache HAWQ,Cloudera Impala,SparkSQL,Apache Phoenix,Apache Drill, SharkSQL,Facebook PrestoDB,CockroachDB等。這類系統現今也越來越多向云端發展,包括Amazon Redshift,Google BigQuery,Snowflake等,遺憾的是這類云端產品由于安全性問題大多沒有選擇開源。

分布式服務及數據處理(包括各種日志處理)

分布式服務及數據處理領域,主要包括數據獲取,日志處理,消息服務等分布式編程必要的組件。主要有Apache Zookeeper, Apache Flume, Apache Kafka, Apache Sqoop, Cloudera Morphlines, Facebook Scribe, Logstash,Linkedin Gobblin等。

**分布式服務之上服務

在分布式存儲、計算、數據處理以及各類基礎組件之上,各類分布式應用層出不窮,比如機器學習應用相關**的Apache Mahout, Cloudera Oryx, Spark MLlib, MLbase,搜索應用相關的Apache Solr,ElasticSearch,HBase Coprocessor, Facebook Unicorn,應該說有了這些分布式基礎組件的支持,構建新的分布式應用變得方便很多。
本節就到這里,有興趣的可以看我的下一篇文章。

很多人都知道我有大數據培訓資料,都天真的以為我有全套的大數據開發、hadoop、spark等視

頻學習資料。我想說你們是對的,我的確有大數據開發、hadoop、spark的全套視頻資料。
如果你對大數據開發感興趣可以加口群領取免費學習資料: 763835121

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

贵德县| 南昌市| 霍州市| 望都县| 阳曲县| 加查县| 武陟县| 永泰县| 孟连| 中山市| 晋城| 平顶山市| 怀集县| 潞城市| 辽阳市| 旺苍县| 达拉特旗| 东乡族自治县| 北川| 平湖市| 松滋市| 边坝县| 曲阳县| 娄烦县| 西乌| 成都市| 德江县| 瓮安县| 北碚区| 璧山县| 含山县| 江源县| 台江县| 垦利县| 拜泉县| 宜君县| 湘潭县| 斗六市| 益阳市| 当雄县| 日照市|