您好,登錄后才能下訂單哦!
本篇內容介紹了“Hadoop2的偽分式怎么搭建”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
1. 這一切是如何開始的—Web上龐大的數據! 2. 使用Nutch抓取Web數據 3. 要保存Web上龐大的數據——HDFS應運而生 4. 如何使用這些龐大的數據? 5. 采用Java或任何的流/管道語言構建MapReduce框架用于編碼并進行分析 6. 如何獲取Web日志,點擊流,Apache日志,服務器日志等非結構化數據——fuse,webdav, chukwa, flume, Scribe 7. Hiho和sqoop將數據加載到HDFS中,關系型數據庫也能夠加入到Hadoop隊伍中 8. MapReduce編程需要的高級接口——Pig, Hive, Jaql. 9. 具有先進的UI報表功能的BI工具- Intellicus 10. Map-Reduce處理過程使用的工作流工具及高級語言 11. 監控、管理hadoop,運行jobs/hive,查看HDFS的高級視圖—Hue,karmasphere,eclipse plugin,cacti,ganglia 12. 支持框架—Avro (進行序列化), Zookeeper (用于協同) 13. 更多高級接口——Mahout, Elastic map Reduce 14. 同樣可以進行OLTP——Hbase
Hadoop是一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。簡單地說來,Hadoop是一個可以更容易開發和運行處理大規模數據的軟件平臺。 實際場景:海量日志如何處理,海量網頁數據如何處理 hdfs 解決了海量數據的分布式存儲,高可靠,易擴展,高吞吐量 mapreduce 解決了海量數據的分析處理,通用性強,易開發,健壯性
Common:一組分布式文件系統和通用I/O的組件與接口(序列化、Java RPC和持久化數據結構)。 MapReduce:分布式數據處理模型和執行環境,運行于大型商用機集群。 HDFS:分布式文件系統,運行于大型商用機集群。 Zookeeper:一個分布式、可用性高的協調服務,提供分布式鎖之類的基本服務用于構建分布式應用。 HBase:一個分布式、按列存儲數據庫,使用HDFS作為底層存儲,同時支持MapReduce的批量式計算和點查詢(隨機讀取)。 Pig:一種數據流語言和運行環境,用以檢索非常大的數據集,運行在MapReduce和HDFS的集群上。 Hive:一個分布式、按列存儲的數據倉庫,管理HDFS中存儲的數據,并提供基于SQL的查詢語言(由運行時引起翻譯成MapReduce作業)用以查詢數據。 Mahout:一個在Hadoop上運行的可擴展的機器學習和數據挖掘類庫(例如分類和聚類算法)。 Avro:一種支持高效、跨語言的RPC以及永久存儲數據的序列化系統。 Sqoop:在數據庫和HDFS之間高效傳輸數據的工具。 最底層平臺 hdfs yarn mapreduce spark 應用層 hbase hive pig sparkSQL nutch 工具類 zookeeper flume
普通的NFS和HDFS的區別以及其各自的特點
1. 優點:透明性,編程方便,容易,只須open,close,fread一些庫的操作。 2. 缺點:無數據冗余性,所有數據在一臺機器上,數據復制時,可能有帶寬限制。 HDFS就是為克服NFS的缺點,進行設計.存儲可靠,讀取方便,且與mapreduce整合到一起.可伸縮性強,高度可配置(一堆的配置文件).支持web接口:http://namenode-name:50070/流量文件系統.同時支持shell界面操作.
HDFS的整體架構圖:詳解見以后博客
HDFS在官方文檔中的架構
什么是偽分布式集群:
環境準備: 虛擬機:VMware 10 操作系統:CentOS 6 JDK:1.7 Hadoop:2.4 客戶端訪問工具:secureCRT 用戶名:hadoop
6.1 前期網絡環境準備 在vmware中更改了虛擬機的網絡類型,--->NAT方式,(虛擬交換機的ip可以從vmvare的edit-->vertual network editor看到) 根據這個交換機(網關)的地址,來設置我們的客戶端windown7的ip(Vmnet8這塊網卡) 啟動linux主機,修改linux系統的ip地址(通過圖形界面修改),修改完成之后在terminal(命令行終端)中切換到root用戶執行命令重啟網絡服務來讓ip生效 修改主機名: 在root身份下,用命令修改 vi /etc/sysconfig/network 把hostname改為 yun-10-1 添加主機名和ip的映射 在root身份下 vi /etc/hosts 添加一行 192.168.2.100 yun-10-1 講hadoop這個用戶添加到sudoers里面去 在root身份下 vi /etc/sudoers,在文件中找到 root ALL=ALL ALL ,下面加一行hadoop的 停止防火墻服務 在root身份下 service iptables stop 關閉防火墻的自動啟動 在root身份下 chkconfig iptables off reboot命令重啟機器 用ping命令檢測一下windows主機和linux服務器之間的網絡連通性 進入linux修改圖形界面啟動配置,不要再啟動圖形界面了,在root身份下, vi /etc/inittab 將其改為id:3:initdefault: 再次reboot,將不會啟動到圖形界面了 (當以后你想啟動圖形界面的時候可以在命令行下敲startx (init 5) ,在圖形界面下你想關閉圖形界面,敲命令init 3)
6.2 安裝JDK 用終端連接linux服務器進行軟件的安裝(用secureCRT來連接ALT+P) 安裝jdk --用filezilla工具上傳jdk的壓縮包 --解壓jdk的壓縮包到一個專門的安裝目錄下 /home/hadoop/app --在hadoop的主目錄下敲命令 tar -zxvf jdk-7u65-linux-i586.tar.gz -C ./app --配置java的環境變量 sudo vi /etc/profile 在文件的最后添加: export JAVA_HOME=/home/hadoop/app/jdk1.7.0_65 export PATH=$PATH:$JAVA_HOME/bin --讓配置生效, source /etc/profile --Javac,Java -version檢測
6.3 安裝Hadoop以及配置相關信息 a.用secureCRT工具上傳hadoop的安裝包 b.把hadoop解壓到app目錄中去 tar -zxvf hadoop-2.4.1.tar.gz -C ./app/ c.修改hadoop的5大配置文件,位置在 /home/hadoop/app/hadoop-2.4.1/etc/hadoop目錄 d.配置一下hadoop的環境變量 sudo vi /etc/profile
----vi hadoop-env.sh 改其中的JAVA_HOME為我們安裝jdk的路徑JAVA_HOME=/home/hadoop/app/jdk1.7.0_65
----vi core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://yun-10-1:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/app/hadoop-2.4.1/tmp</value> </property> </configuration>
----vi hdfs-site.xml <configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
-- 先修改文件名 mv mapred-site.xml.template mapred-site.xml 在編輯 vi mapred-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-- vi yarn-site.xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>yun-10-1</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
測試Hadoop偽分布式:格式化HDFS,啟動HDFS,Yarn,進程查看以及網頁瀏覽. 測試時主機名改為yun10-0.結果證明測試,成功!!!
見另外博客地址.http://my.oschina.net/codeWatching/blog/342253
Vmware中Clone虛擬機后提示"No such device eth0"解決 方法1:直接刪除配置文件 直接刪除配置文件,重啟之后Linux就會找到新的網卡了。 sudo rm /etc/udev/rules.d/70-persistent-net.rules 重啟后如果網卡起不來,刪除/etc/sysconfig/networking-scripts/ifcfg-eth0的如下行,或者修改為vmware分配的新MAC地址: HWADDR="XX:XX:XX:XX:XX:XX" 重啟網卡 service network restart 方法2:修正配置文件 修改配置文件,將原本的eth0刪除,然后修改eth2的NAME="eth2"為NAME="eth0",重啟之后Linux就會使用新的配置文件設置網卡了。 修改前的 /etc/udev/rules.d/70-persistent-net.rules 像這樣: # PCI device 0x1022:0x2000 (pcnet32) SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:50:XX:XX", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0" # PCI device 0x1022:0x2000 (pcnet32) SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:85:XX:XX", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2" 刪除掉eth0那一行,保留余下的行: # PCI device 0x1022:0x2000 (pcnet32) SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:85:XX:XX", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
“Hadoop2的偽分式怎么搭建”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。