大數據入門基礎：Hadoop簡介

發布時間：2020-07-13 02:47:00 來源：網絡閱讀：582 作者：大數據部落欄目：大數據

大數據入門基礎：Hadoop簡介

　　1.1.什么是hadoop

　　1.hadoop是apache旗下的一套開源軟件平臺，可以通過http://apache.org/--->project-

　　 ->hadoop打開

大數據入門基礎：Hadoop簡介

　　2.Hadoop是開源軟件，可靠的、分布式、可伸縮的。

　　3.Hadoop提供的功能：利用服務器集群，根據用戶的自定義業務邏輯，對海量數據進行分布式處理

　　4.廣義上來說，Hadoop通常是指一個更廣泛的概念----hadoop生態圈

　　1.2數據分析故事

大數據入門基礎：Hadoop簡介

　　1.3數據有多大呢

大數據入門基礎：Hadoop簡介

　　數據量進制：

　　1G =1024M

　　1T = 1024G

　　1P = 1024T

　　1E = 1024P

　　1Z = 1024E

　　1Y = 1024Z

　　1N = 1024Y

大數據入門基礎：Hadoop簡介

　　Hadoop 廉價機器

　　去IOE

　　 IBM//ibm小型機.

　　Oracle//oracle數據庫服務器 RAC

　　EMC//EMC共享存儲設備。

　　1.4分布式

　　由分布在不同主機上的進程協同在一起，才能構成整個應用。

1.分布式軟件系統(Distributed Software Systems)

　　2 該軟件系統會劃分成多個子系統或模塊，各自運行在不同的機器上，

　　子系統或模塊之間通過網絡通信進行協作，實現最終的整體功能

2.分布式應用系統模擬開發

　　需求：可以實現由主節點將運算任務發往從節點，并將各從節點上的任務啟動；

　　程序清單：

　　AppMaster

　　AppSlave/APPSlaveThread

　　Task

　　程序運行邏輯流程：

大數據入門基礎：Hadoop簡介

1.5 HADOOP在大數據、云計算中的位置和關系

　　1. 云計算是分布式計算、并行計算、網格計算、多核計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和互聯網技術融合發展的產物。借助IaaS(基礎設施即服務)、PaaS(平臺即服務)、SaaS（軟件即服務）等業務模式，把強大的計算能力提供給終端用戶。

　　2. 現階段，云計算的兩大底層支撐技術為“虛擬化”和“大數據技術”

1.6 HADOOP產生背景

　　1. HADOOP最早起源于Nutch。Nutch的設計目標是構建一個大型的全網搜索引擎，包括網頁抓取、索引、查詢等功能，但隨著抓取網頁數量的增加，遇到了嚴重的可擴展性問題——如何解決數十億網頁的存儲和索引問題。

　　2. 2003年、2004年谷歌發表的兩篇論文為該問題提供了可行的解決方案。

　　——分布式文件系統（GFS），可用于處理海量網頁的存儲

　　——分布式計算框架MAPREDUCE，可用于處理海量網頁的索引計算問題。

　　3. Nutch的開發人員完成了相應的開源實現HDFS和MAPREDUCE，并從Nutch中剝離成為獨立項目HADOOP，到2008年1月，HADOOP成為Apache頂級項目，迎來了它的快速發展期。

1.7 HADOOP現狀

大數據入門基礎：Hadoop簡介

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

大數據入門基礎：Hadoop簡介

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

大數據入門基礎：Hadoop簡介

猜你喜歡

最新資訊

相關推薦

相關標簽