中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數據之hadoop

發布時間:2020-07-06 08:28:20 來源:網絡 閱讀:287 作者:神奇的小哈 欄目:大數據

一、大數據
大數據:解決海量數據問題的技術。大數據由巨型數據集組成,把數據集合并進行分析可得出許多額外的信息和數據關系性。
大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。
大數據技術是指從各種各樣類型的數據中,快速獲得有價值信息的能力,適用于大數據的技術,包括大數據技術包括大規模并行處理數據庫,數據挖掘電網,分布式文件系統,分布式數據庫,云計算平臺,互聯網和可擴展的存儲系統。

大數據的特性:
大體量:可從數百TB到數十數百PB、甚至EB的規模
多樣性:大數據包括各種形式的形態的數據
時效性:需要在一定的時間限度下得到及時的處理
準確性:處理的結果要保證一定的準確性
大價值:大數據包含很多深度的價值,大數據分析挖掘和利用將帶來巨大的商業價值

二、Hadoop
hadoop是一種分析和處理海量數據的軟件平臺,是一款開源軟件,使用Java開發,可以提供一個分布式基礎架構

hadoop特點:高可靠性、高擴展性、高效性、高容錯性、低成本

hadoop常用組件:
-HDFS(Hadoop分布式文件系統)
-Mapreduce(分布式計算框架)
-Zookeeper(分布式協作服務)
-Hbase(分布式列存數據庫)
-Hive(基于Hadoop的數據倉庫)
-Sqoop(數據同步工具)
-Pig(基于Hadoop的數據流系統)
-Mahout(數據挖掘算法庫)
-Flume(日志收集工具)

hadoop核心組件:
-HDFS:分布式文件系統
-Yarn:集群資源管理系統
-MapReduce:分布式計算框架

HDFS角色及概念
-NameNode:Master節點,管理HDFS的名稱空間和數據塊映射信息,配置副本策略,處理所有客戶端請求。
-Secondary NameNode:定期合幵 fsimage 和fsedits,推送給NameNode,緊急情況下,可輔助恢復NameNode
-DataNode:數據存儲節點,存儲實際的數據,匯報存儲信息給NameNode。
-Client:切分文件,訪問HDFS,與NameNode交互,獲取文件位置信息,與DataNode交互,讀取和寫入數據。

Hadoop的部署模式有三種:
-單機
-偽分布式(所有角色裝一臺機器上)
-完全分布式(不同角色裝不同機器)

三、單機模式:
1.獲取軟件
http://hadoop.apache.org
下載:hadoop-2.7.6.tar.gz
解壓:tar -xf hadoop-2.7.6.tar.gz
安裝:mv hadoop-2.7.6

2.安裝java環境,jps工具
yum -y install java-1.8.0-openjdk
yum -y install java-1.8.0-openjdk-devel

3.設置環境變量
vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
export JAVA_HOME="/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.131-11.b12.el7.x86_64/jre"
export HADOOP_CONF_DIR="/usr/local/hadoop/etc/hadoop"

分析單詞出現的次數
./bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount oo xx

四、完全分布式:
-分布式文件系統:是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網絡節點相連,分布式文件系統的設計基于客戶機/服務器模式;分布式文件系統可以有效解決數據的存儲和管理難題,將固定于某個地點的某個文件系統,擴展到任意多個地點/多個文件系統,眾多的節點組成一個文件系統網絡,每個節點可以分布在不同的地點,通過網絡進行節點間的通信和數據傳輸。

集群組建條件:

  • ALL: 能相互 ping 通 (配置 /etc/hosts)
  • ALL: 安裝 java-1.8.0-openjdk-devel
  • NN1: 能 ssh 免密登錄所有集群主機,包括自己(不能提示輸入 yes)
    ssh 免密登錄:部署 sshkey
    不輸入 yes:修改 /etc/ssh/ssh_config
    60行添加 StrictHostKeyChecking no

配置文件格式
<property>
<name></name>
<value></value>
<description></description>
</property>

配置文件參考網址http://hadoop.apache.org
cd /usr/local/hadoop/etc/hadoop

1.配置環境變量文件hadoop-env.sh(參見三、3)
2.核心配置文件core-site.xml
vim core-site.xml
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs:///nn01:9000</value>
<description></description>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/var/hadoop</value>
<description></description>
</property>
</configuration>
在所有主機上創建/var/hadoop

2.完全分布式配置hdfs-site.xml
vim hdfs-site.xml
<configuration>
<property>
<name>dfs.datanode.http-address</name>
<value>nn01:50070</value>
<description></description>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>nn01:50090</value>
<description></description>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
<description></description>
</property>
</configuration>

3.配置slaves
vim slaves
node01
node02
node03

4.同步配置到所有主機

5.格式化 namenode (nn01上操作)
./bin/hdfs namenode -format

6.啟動集群 (nn01上操作)
./sbin/start-dfs.sh
停止集群可以使用 ./sbin/stop-dfs.sh

7.驗證角色 jps (所有主機操作)

8.驗證集群是否組建成功 (nn01上操作)
./bin/hdfs dfsadmin -report

服務啟動日志路徑 /usr/local/hadoop/logs

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

柘荣县| 措美县| 永丰县| 台东县| 海南省| 沧源| 科尔| 搜索| 阿尔山市| 临澧县| 大庆市| 孟津县| 田阳县| 东阿县| 绵竹市| 玉山县| 南和县| 蓬安县| 溆浦县| 内黄县| 门头沟区| 合水县| 昌乐县| 光泽县| 宕昌县| 武汉市| 南投市| 汪清县| 揭西县| 竹北市| 绥芬河市| 荣昌县| 台中市| 搜索| 九台市| 分宜县| 东明县| 诸城市| 友谊县| 宁晋县| 长宁县|