中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

hadoop2.6.5+sqoop1.4.6環境部署與測試(三)

發布時間:2020-07-13 20:23:10 來源:網絡 閱讀:927 作者:琴里伊始 欄目:大數據

在hadoop環境搭建完成后,接下來就是要把sqoop整合進來,使其可以利用hadoop和mysql-connector-java來從MySQL中抽取數據并轉存到hdfs上。

1. 將得到的sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz解壓到/usr/local/下,并建立/usr/local/sqoop軟鏈接。

mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz /usr/local/
tar -xvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
ln -s /usr/local/sqoop-1.4.6.bin__hadoop-2.0.4-alpha /usr/local/sqoop

2. 將/usr/local/sqoop,/usr/local/sqoop-1.4.6.bin__hadoop-2.0.4-alpha屬主屬組修改為hadoop,保證hadoop用戶可以使用:

chown -R hadoop:hadoop /usr/local/sqoop-1.4.6.bin__hadoop-2.0.4-alpha
chown -R hadoop:hadoop /usr/local/sqoop

3. 配置SQOOP_HOME環境變量,在/etc/profile中添加和修改如下記錄:

export SQOOP_HOME=/usr/local/sqoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SQOOP_HOME/bin:$PATH

4. 對sqoop進行配置,保證其可以整合到hadoop中:
1)進入到$SQOOP_HOME/conf目錄下,復制一份sqoop環境配置腳本sqoop-env-template.sh到當前目錄,并重命名為sqoop-env.sh:

cd $SQOOP_HOME/conf
cp sqoop-env-template.sh sqoop-env.sh

2)修改sqoop-env.sh的HADOOP_COMMON_HOME和HADOOP_MAPRED_HOME變量值,使其對應于相應的hadoop文件路徑:

export HADOOP_COMMON_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=/usr/local/hadoop/share/hadoop/mapreduce

3)sqoop需要連接mysql和運行mapreduce程序來完成數據抽取,因此需要mysql-connector和mapreduce相應庫文件的支持,請將mysql-connector-java包和$HADOOP_HOME/share/hadoop/mapreduce/下的所有jar包復制到$SQOOP_HOME/lib目錄下:

cp $HADOOP_HOME/share/hadoop/mapreduce/*.jar $SQOOP_HOME/lib/
cp ~/mysql-connector-java-5.1.32-bin.jar $SQOOP_HOME/lib/
chown -R hadoop:hadoop $SQOOP_HOME/lib/

5. 下面可以使用sqoop腳本來進行數據抽取操作了,該腳本在$SQOOP_HOME/bin目錄下,使用方法如下:

#測試數據庫是否可以連接
sqoop list-databases --connect jdbc:mysql://localhost:3306/actionLog \
--username root --P (如果返回數據庫名,則可以通過sqoop連接mysql數據庫)
#從MySQL庫中抽取數據到hdfs上
sqoop import --connect jdbc:mysql://hadoop-test-nn:3306/actionLog  \
--username root -P \
--table log \
--columns "logger_id,time" \
--where 'action = "login"' \
--target-dir /test/loginInfo
選項說明:
--username 數據庫用戶名
-P 使用交互方式隱蔽和輸入數據庫用戶口令
--table 指定導出的庫表名
--columns 指定表中哪些列的數據被導出
--where 可以通過添加類似sql語句中where條件來篩選導出的記錄
--target-dir 導出的數據存放在hdfs上的路徑,這里的路徑值是hdfs上的路徑,并不是文件系統本身的絕對路徑

上述sqoop import命令是對mysql上actionLog庫中的log表進行數據抽取,該表的表結構如下:

mysql> desc log;
+--------------+--------------+------+-----+---------+----------------+
| Field        | Type         | Null | Key | Default | Extra          |
+--------------+--------------+------+-----+---------+----------------+
| log_id       | bigint(20)   | NO   | PRI | NULL    | auto_increment |
| name          | varchar(255) | YES  |     | NULL    |                |
| action       | varchar(255) | YES  |     | NULL    |                |
| logger_id    | varchar(255) | YES  |     | NULL    |                |
| time         | varchar(255) | YES  |     | NULL    |                |
+--------------+--------------+------+-----+---------+----------------+

因為指定了導出列為logger_id、time。因此導出到hdfs上的數據如下:

[hadoop@hadoop-test-nn lib]$ hdfs dfs -ls /test/loginInfo   
Found 1 items
-rw-r--r--   2 hadoop supergroup     211825 2017-08-02 16:04 /test/loginInfo/userLoginInfo.txt
[hadoop@hadoop-test-nn lib]$ hdfs dfs -cat /test/loginInfo/userLoginInfo.txt
wanger,2017-07-27 14:21:12
zhangsan,2017-07-27 14:37:16
james,2017-07-27 15:27:13
...

(注:這里對/test/loginInfo下的文本內容進行了合并和重新存放,實際使用過程中該目錄下會產生多個以part-**格式命名的文本,文本內容的格式是一致的)
現在數據已經成功抽取并以文本方式存放到hdfs上了。下面就可以編寫mapreduce程序來對文本進行分析了。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

中卫市| 枣阳市| 清远市| 克拉玛依市| 祁东县| 祁连县| 太仓市| 天等县| 远安县| 沅江市| 阿鲁科尔沁旗| 青田县| 馆陶县| 探索| 来凤县| 杨浦区| 九龙县| 贵溪市| 拉萨市| 锡林郭勒盟| 离岛区| 皋兰县| 恩平市| 江门市| 洪雅县| 新和县| 泸水县| 札达县| 卢龙县| 南投县| 壤塘县| 吉安市| 山阴县| 芒康县| 长葛市| 赣榆县| 台湾省| 广饶县| 安西县| 南安市| 两当县|