您好,登錄后才能下訂單哦!
Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,是用Java語言開發的一個開源分布式計算平臺,適合大數據的分布式存儲和計算平臺。今天加米谷大數據就來簡單介紹一下Hadoop的簡史,以及學習Hadoop前要做哪些準備。
狹義上,Hadoop就是單獨指代Hadoop這個軟件;
廣義上,Hadoop指代大數據的一個生態圈,包括很多其他的軟件。
Hadoop的起源
1、2001年,Nutch問世。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題;
2、2003-2004年,Google發布論文:GFS、MapReduce,受此啟發的Doug Cutting等人實現了NDFS(HDFS的前身)和MapReduce機制,使Nutch性能飆升;
GFS:Google的分布式文件系統Google File System
MapReduce:Google的MapReduce開源分布式并行計算框架
3、2005年,Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會;
4、2006年,Hadoop(HDFS+MapReduce)從Nutch中剝離成為獨立項目。Doug Cutting加入Yahoo,領導Hadoop的開發。
.在入門學習大數據的過程當中有遇見學習,行業,缺乏系統學習路線,系統學習規劃,歡迎你加入我的大數據學習交流裙:529867072 ,裙文件有我這幾年整理的大數據學習手冊,開發工具,PDF文檔書籍,你可以自行下載。
Hadoop的發展簡史
5、2006年,Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發展;Yahoo建設了第一個Hadoop集群用于開發;4月,第一個Apache Hadoop發布;11月,Google發表了Bigtable論文,Hbase的創建的靈感來源;
BigTable:一個大型的分布式數據庫
演變關系:
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase
6、2007年,第一個Hadoop用戶組會議召開,社區貢獻開始急劇上升;同年,Facebook開始使用Hadoop,百度開始使用Hadoop做離線處理,中國移動開始研究使用Hadoop;
7、2008年,Hive、HBase問世,Hadoop成為Apache頂級項目。8月,第一個Hadoop商業化公司Cloudera成立。同年,淘寶開始使用Hadoop;
8、2009年-2012年,Hadoop不斷發展。
2009年Cloudera推出CDH平臺(首個Hadoop發行版),完全由開放源碼軟件組成。《Hadoop權威指南》初版出版(被譽為Hadoop圣經);2010年,HBase、Hive( Facebook) 、Pig脫離Hadoop,均成為Apache頂級項目;Hadoop社區建立大量新組件(Crunch,Sqoop,Flume,Oozie等)來擴展Hadoop的使用場景和可用性;2011年,ZooKeeper 脫離Hadoop,成為Apache頂級項目;加米谷大數據培訓機構,6月大數據開發0基礎班、提高班,即將開課,預報名中... 2012年,Yarn成為Hadoop子項目;
9、2014年,Spark逐漸代替MapReduce成為Hadoop的缺省執行引擎,并成為Apache基金會頂級項目。
Hadoop能干什么?
大數據存儲:分布式存儲
日志處理:擅長日志分析
ETL:數據抽取到oracle、mysql、DB2、mongdb及主流數據庫
機器學習: 比如Apache Mahout項目
搜索引擎:Hadoop + lucene實現
數據挖掘:目前比較流行的廣告推薦,個性化廣告推薦
Hadoop是專為離線和大規模數據分析而設計的,并不適合那種對幾個記錄隨機讀寫的在線事務處理模式。
學習Hadoop前的準備:
準備電腦(用于學習):內存最少8G、CPU起碼四核(cpu i5 系列)
支持平臺:Linux(CentOS)(產品開發和運行的平臺)
所需軟件:以Linux為例
Java8.0,必須安裝,建議選擇Oracle公司發行的Java版本。
ssh 必須安裝并且保證 sshd一直運行,以便用Hadoop 腳本管理遠端Hadoop守護進程。
安裝所需軟件:以Linux為例
$ sudo yum install ssh
$ sudo yum install rsync
下載Hadoop的發行版并解壓安裝
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。