中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

零基礎學習大數據Hadoop需要什么準備?Hadoop如何發展起來的?

發布時間:2020-07-28 22:17:17 來源:網絡 閱讀:340 作者:a大數據 欄目:大數據

Hadoop是一個由Apache基金會所開發的分布式系統基礎架構,是用Java語言開發的一個開源分布式計算平臺,適合大數據的分布式存儲和計算平臺。今天加米谷大數據就來簡單介紹一下Hadoop的簡史,以及學習Hadoop前要做哪些準備。
狹義上,Hadoop就是單獨指代Hadoop這個軟件;

廣義上,Hadoop指代大數據的一個生態圈,包括很多其他的軟件。
零基礎學習大數據Hadoop需要什么準備?Hadoop如何發展起來的?

Hadoop的起源

1、2001年,Nutch問世。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題;

2、2003-2004年,Google發布論文:GFS、MapReduce,受此啟發的Doug Cutting等人實現了NDFS(HDFS的前身)和MapReduce機制,使Nutch性能飆升;

GFS:Google的分布式文件系統Google File System

MapReduce:Google的MapReduce開源分布式并行計算框架

3、2005年,Hadoop作為Lucene的子項目Nutch的一部分正式引入Apache基金會;

4、2006年,Hadoop(HDFS+MapReduce)從Nutch中剝離成為獨立項目。Doug Cutting加入Yahoo,領導Hadoop的開發。

.在入門學習大數據的過程當中有遇見學習,行業,缺乏系統學習路線,系統學習規劃,歡迎你加入我的大數據學習交流裙:529867072 ,裙文件有我這幾年整理的大數據學習手冊,開發工具,PDF文檔書籍,你可以自行下載。

Hadoop的發展簡史

5、2006年,Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發展;Yahoo建設了第一個Hadoop集群用于開發;4月,第一個Apache Hadoop發布;11月,Google發表了Bigtable論文,Hbase的創建的靈感來源;

BigTable:一個大型的分布式數據庫

演變關系:

GFS—->HDFS

Google MapReduce—->Hadoop MapReduce

BigTable—->HBase

6、2007年,第一個Hadoop用戶組會議召開,社區貢獻開始急劇上升;同年,Facebook開始使用Hadoop,百度開始使用Hadoop做離線處理,中國移動開始研究使用Hadoop;

7、2008年,Hive、HBase問世,Hadoop成為Apache頂級項目。8月,第一個Hadoop商業化公司Cloudera成立。同年,淘寶開始使用Hadoop;

8、2009年-2012年,Hadoop不斷發展。

2009年Cloudera推出CDH平臺(首個Hadoop發行版),完全由開放源碼軟件組成。《Hadoop權威指南》初版出版(被譽為Hadoop圣經);2010年,HBase、Hive( Facebook) 、Pig脫離Hadoop,均成為Apache頂級項目;Hadoop社區建立大量新組件(Crunch,Sqoop,Flume,Oozie等)來擴展Hadoop的使用場景和可用性;2011年,ZooKeeper 脫離Hadoop,成為Apache頂級項目;加米谷大數據培訓機構,6月大數據開發0基礎班、提高班,即將開課,預報名中... 2012年,Yarn成為Hadoop子項目;

9、2014年,Spark逐漸代替MapReduce成為Hadoop的缺省執行引擎,并成為Apache基金會頂級項目。

Hadoop能干什么?

大數據存儲:分布式存儲

日志處理:擅長日志分析

ETL:數據抽取到oracle、mysql、DB2、mongdb及主流數據庫

機器學習: 比如Apache Mahout項目

搜索引擎:Hadoop + lucene實現

數據挖掘:目前比較流行的廣告推薦,個性化廣告推薦

Hadoop是專為離線和大規模數據分析而設計的,并不適合那種對幾個記錄隨機讀寫的在線事務處理模式。

學習Hadoop前的準備:

準備電腦(用于學習):內存最少8G、CPU起碼四核(cpu i5 系列)

支持平臺:Linux(CentOS)(產品開發和運行的平臺)

所需軟件:以Linux為例

Java8.0,必須安裝,建議選擇Oracle公司發行的Java版本。
ssh 必須安裝并且保證 sshd一直運行,以便用Hadoop 腳本管理遠端Hadoop守護進程。
安裝所需軟件:以Linux為例

$ sudo yum install ssh

$ sudo yum install rsync

下載Hadoop的發行版并解壓安裝

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

嵊州市| 静乐县| 天全县| 大余县| 察隅县| 桐梓县| 抚远县| 庆安县| 沾益县| 原平市| 临澧县| 酒泉市| 梁山县| 蒙山县| 墨竹工卡县| 保亭| 绥化市| 竹溪县| 泾川县| 交口县| 开化县| 永安市| 莆田市| 揭阳市| 舞阳县| 胶州市| 霞浦县| 湖州市| 沁源县| 长子县| 棋牌| 景泰县| 手机| 景洪市| 东宁县| 河北省| 从江县| 高青县| 昭平县| 北宁市| 淮阳县|