您好,登錄后才能下訂單哦!
1.1.什么是hadoop
1.hadoop是apache旗下的一套開源軟件平臺,可以通過http://apache.org/--->project-
->hadoop打開
2.Hadoop是開源軟件,可靠的、分布式、可伸縮的。
3.Hadoop提供的功能:利用服務器集群,根據用戶的自定義業務邏輯,對海量數據進行分布式處理
4.廣義上來說,Hadoop通常是指一個更廣泛的概念----hadoop生態圈
1.2數據分析故事
1.3數據有多大呢
數據量進制:
1G =1024M
1T = 1024G
1P = 1024T
1E = 1024P
1Z = 1024E
1Y = 1024Z
1N = 1024Y
Hadoop 廉價機器
去IOE
IBM//ibm小型機.
Oracle//oracle數據庫服務器 RAC
EMC//EMC共享存儲設備。
1.4分布式
由分布在不同主機上的進程協同在一起,才能構成整個應用。
1.分布式軟件系統(Distributed Software Systems)
2 該軟件系統會劃分成多個子系統或模塊,各自運行在不同的機器上,
子系統或模塊之間通過網絡通信進行協作,實現最終的整體功能
2.分布式應用系統模擬開發
需求:可以實現由主節點將運算任務發往從節點,并將各從節點上的任務啟動;
程序清單:
AppMaster
AppSlave/APPSlaveThread
Task
程序運行邏輯流程:
1.5 HADOOP在大數據、云計算中的位置和關系
1. 云計算是分布式計算、并行計算、網格計算、多核計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和互聯網技術融合發展的產物。借助IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS(軟件即服務)等業務模式,把強大的計算能力提供給終端用戶。
2. 現階段,云計算的兩大底層支撐技術為“虛擬化”和“大數據技術”
1.6 HADOOP產生背景
1. HADOOP最早起源于Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。
2. 2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。
——分布式文件系統(GFS),可用于處理海量網頁的存儲
——分布式計算框架MAPREDUCE,可用于處理海量網頁的索引計算問題。
3. Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE,并從Nutch中剝離成為獨立項目HADOOP,到2008年1月,HADOOP成為Apache頂級項目,迎來了它的快速發展期。
1.7 HADOOP現狀
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。