Hadoop2的偽分式怎么搭建

發布時間：2021-12-10 09:33:05 來源：億速云閱讀：125 作者：iii 欄目：云計算

本篇內容介紹了“Hadoop2的偽分式怎么搭建”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

1.Hadoop生態體系圖

1. 這一切是如何開始的—Web上龐大的數據!
2. 使用Nutch抓取Web數據
3. 要保存Web上龐大的數據——HDFS應運而生
4. 如何使用這些龐大的數據?
5. 采用Java或任何的流/管道語言構建MapReduce框架用于編碼并進行分析
6. 如何獲取Web日志，點擊流，Apache日志，服務器日志等非結構化數據——fuse,webdav, chukwa, flume, Scribe
7. Hiho和sqoop將數據加載到HDFS中，關系型數據庫也能夠加入到Hadoop隊伍中
8. MapReduce編程需要的高級接口——Pig, Hive, Jaql.
9. 具有先進的UI報表功能的BI工具- Intellicus
10. Map-Reduce處理過程使用的工作流工具及高級語言
11. 監控、管理hadoop，運行jobs/hive，查看HDFS的高級視圖—Hue,karmasphere,eclipse plugin,cacti,ganglia
12. 支持框架—Avro (進行序列化), Zookeeper (用于協同)
13. 更多高級接口——Mahout, Elastic map Reduce
14. 同樣可以進行OLTP——Hbase

Hadoop2的偽分式怎么搭建

2.Hadoop的簡介

Hadoop是一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。簡單地說來，Hadoop是一個可以更容易開發和運行處理大規模數據的軟件平臺。
實際場景：海量日志如何處理，海量網頁數據如何處理
hdfs  解決了海量數據的分布式存儲，高可靠，易擴展，高吞吐量
mapreduce   解決了海量數據的分析處理，通用性強，易開發，健壯性

Hadoop2的偽分式怎么搭建

Common：一組分布式文件系統和通用I/O的組件與接口（序列化、Java RPC和持久化數據結構）。
MapReduce：分布式數據處理模型和執行環境，運行于大型商用機集群。
HDFS：分布式文件系統，運行于大型商用機集群。
Zookeeper：一個分布式、可用性高的協調服務，提供分布式鎖之類的基本服務用于構建分布式應用。
HBase：一個分布式、按列存儲數據庫，使用HDFS作為底層存儲，同時支持MapReduce的批量式計算和點查詢（隨機讀取）。
Pig：一種數據流語言和運行環境，用以檢索非常大的數據集，運行在MapReduce和HDFS的集群上。
Hive：一個分布式、按列存儲的數據倉庫，管理HDFS中存儲的數據，并提供基于SQL的查詢語言（由運行時引起翻譯成MapReduce作業）用以查詢數據。
Mahout：一個在Hadoop上運行的可擴展的機器學習和數據挖掘類庫（例如分類和聚類算法）。
Avro：一種支持高效、跨語言的RPC以及永久存儲數據的序列化系統。
Sqoop：在數據庫和HDFS之間高效傳輸數據的工具。

最底層平臺 hdfs   yarn  mapreduce  spark
應用層     hbase  hive pig  sparkSQL  nutch 
工具類     zookeeper  flume

3.集中存儲和運算的瓶頸

Hadoop2的偽分式怎么搭建

4.云計算中的虛擬化和Hadoop技術上的區別

Hadoop2的偽分式怎么搭建

5.如何解決海量存儲----HDFS的簡單概念

普通的NFS和HDFS的區別以及其各自的特點

1. 優點：透明性,編程方便,容易,只須open，close，fread一些庫的操作。
2. 缺點：無數據冗余性，所有數據在一臺機器上，數據復制時，可能有帶寬限制。
   HDFS就是為克服NFS的缺點，進行設計.存儲可靠，讀取方便，且與mapreduce整合到一起.可伸縮性強,高度可配置（一堆的配置文件）.支持web接口:http://namenode-name:50070/流量文件系統.同時支持shell界面操作.

Hadoop2的偽分式怎么搭建

HDFS的整體架構圖:詳解見以后博客

Hadoop2的偽分式怎么搭建

HDFS在官方文檔中的架構

Hadoop2的偽分式怎么搭建

6.搭建Hadoop偽分布式集群

什么是偽分布式集群:

Hadoop2的偽分式怎么搭建

環境準備: 虛擬機:VMware 10
         操作系統:CentOS 6
         JDK:1.7
         Hadoop:2.4
         客戶端訪問工具:secureCRT
         用戶名:hadoop

6.1 前期網絡環境準備
    在vmware中更改了虛擬機的網絡類型，--->NAT方式，（虛擬交換機的ip可以從vmvare的edit-->vertual network editor看到）
    根據這個交換機（網關）的地址，來設置我們的客戶端windown7的ip（Vmnet8這塊網卡）
    啟動linux主機,修改linux系統的ip地址（通過圖形界面修改），修改完成之后在terminal（命令行終端）中切換到root用戶執行命令重啟網絡服務來讓ip生效
    修改主機名： 在root身份下，用命令修改  vi /etc/sysconfig/network   把hostname改為  yun-10-1
    添加主機名和ip的映射  在root身份下 vi /etc/hosts  添加一行 192.168.2.100	yun-10-1
    講hadoop這個用戶添加到sudoers里面去  在root身份下 vi /etc/sudoers，在文件中找到 root  ALL=ALL ALL ，下面加一行hadoop的
    停止防火墻服務   在root身份下 service iptables stop
    關閉防火墻的自動啟動   在root身份下   chkconfig iptables off
    reboot命令重啟機器
    用ping命令檢測一下windows主機和linux服務器之間的網絡連通性
    進入linux修改圖形界面啟動配置，不要再啟動圖形界面了，在root身份下，  vi /etc/inittab  將其改為id:3:initdefault:
    再次reboot，將不會啟動到圖形界面了 
（當以后你想啟動圖形界面的時候可以在命令行下敲startx (init 5) ，在圖形界面下你想關閉圖形界面，敲命令init 3）

6.2 安裝JDK
    用終端連接linux服務器進行軟件的安裝（用secureCRT來連接ALT+P）
    安裝jdk
	--用filezilla工具上傳jdk的壓縮包
	--解壓jdk的壓縮包到一個專門的安裝目錄下  /home/hadoop/app
	--在hadoop的主目錄下敲命令 tar -zxvf jdk-7u65-linux-i586.tar.gz -C ./app
	--配置java的環境變量 sudo vi /etc/profile
          在文件的最后添加：
		export JAVA_HOME=/home/hadoop/app/jdk1.7.0_65
	        export PATH=$PATH:$JAVA_HOME/bin
         --讓配置生效,  source /etc/profile
         --Javac,Java -version檢測

6.3 安裝Hadoop以及配置相關信息
    a.用secureCRT工具上傳hadoop的安裝包
    b.把hadoop解壓到app目錄中去   tar -zxvf hadoop-2.4.1.tar.gz -C ./app/
    c.修改hadoop的5大配置文件，位置在 /home/hadoop/app/hadoop-2.4.1/etc/hadoop目錄
    d.配置一下hadoop的環境變量  sudo vi /etc/profile

----vi hadoop-env.sh  改其中的JAVA_HOME為我們安裝jdk的路徑JAVA_HOME=/home/hadoop/app/jdk1.7.0_65

----vi   core-site.xml   
   <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://yun-10-1:9000</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/home/hadoop/app/hadoop-2.4.1/tmp</value>
        </property>
    </configuration>

----vi   hdfs-site.xml
    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
     </configuration>

-- 先修改文件名   mv mapred-site.xml.template mapred-site.xml
   在編輯  vi mapred-site.xml
           <configuration>
                <property>
                    <name>mapreduce.framework.name</name>
                    <value>yarn</value>
                </property>
            </configuration>

-- vi yarn-site.xml
        <configuration>
           <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>yun-10-1</value>
           </property>
            <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
            </property>
        </configuration>

測試Hadoop偽分布式:格式化HDFS，啟動HDFS,Yarn,進程查看以及網頁瀏覽.
測試時主機名改為yun10-0.結果證明測試,成功!!!

Hadoop2的偽分式怎么搭建

7.SSH協議詳解和流程使用

見另外博客地址.http://my.oschina.net/codeWatching/blog/342253

8.搭建環境過程中的問題

Vmware中Clone虛擬機后提示"No such device eth0"解決
方法1:直接刪除配置文件     
直接刪除配置文件，重啟之后Linux就會找到新的網卡了。
 
sudo rm /etc/udev/rules.d/70-persistent-net.rules
 
重啟后如果網卡起不來，刪除/etc/sysconfig/networking-scripts/ifcfg-eth0的如下行，或者修改為vmware分配的新MAC地址：
HWADDR="XX:XX:XX:XX:XX:XX"
 
重啟網卡 service network restart
 
方法2:修正配置文件
 
修改配置文件，將原本的eth0刪除，然后修改eth2的NAME="eth2"為NAME="eth0"，重啟之后Linux就會使用新的配置文件設置網卡了。
 
修改前的 /etc/udev/rules.d/70-persistent-net.rules 像這樣:
 
# PCI device 0x1022:0x2000 (pcnet32)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:50:XX:XX", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"
 
# PCI device 0x1022:0x2000 (pcnet32)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:85:XX:XX", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth2"
 
刪除掉eth0那一行，保留余下的行:
 
# PCI device 0x1022:0x2000 (pcnet32)
SUBSYSTEM=="net", ACTION=="add", DRIVERS=="?*", ATTR{address}=="00:0c:29:85:XX:XX", ATTR{dev_id}=="0x0", ATTR{type}=="1", KERNEL=="eth*", NAME="eth0"

“Hadoop2的偽分式怎么搭建”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站，小編將為大家輸出更多高質量的實用文章！

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Hadoop2的偽分式怎么搭建

1.Hadoop生態體系圖

2.Hadoop的簡介

3.集中存儲和運算的瓶頸

4.云計算中的虛擬化和Hadoop技術上的區別

5.如何解決海量存儲----HDFS的簡單概念

6.搭建Hadoop偽分布式集群

7.SSH協議詳解和流程使用

8.搭建環境過程中的問題

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Hadoop2的偽分式怎么搭建

1.Hadoop生態體系圖

2.Hadoop的簡介

3.集中存儲和運算的瓶頸

4.云計算中的虛擬化和Hadoop技術上的區別

5.如何解決海量存儲----HDFS的簡單概念

6.搭建Hadoop偽分布式集群

7.SSH協議詳解和流程使用

8.搭建環境過程中的問題

猜你喜歡

最新資訊

相關推薦

相關標簽