Hadoop核心組件：四步通曉HDFS

發布時間：2020-07-04 15:21:05 來源：網絡閱讀：626 作者：caosheng03 欄目：大數據

Hadoop分布式文件系統(HDFS)被設計成適合運行在通用硬件上的分布式文件系統，它提供高吞吐量來訪問應用程序的數據，適合那些有著超大數據集的應用程序，那么在實際應用中我們如何來操作使用呢？

一、HDFS操作方式：

1、命令行操作

–FsShell：
$ hdfs dfs

Hadoop核心組件：四步通曉HDFS

2、其他的計算框架-如spark

通過URI，比如： hdfs://nnhost:port/file…，調用HDFS的協議、主機、端口或者對外提供的服務媒、以及文件，在spark的程序中實現對HDFS的訪問。

Hadoop核心組件：四步通曉HDFS

3、其他程序：

（1）Java的API，借助于其他的一些計算框架或者分析工具都可以訪問HDFS，如Sqoop加載數據到HDFS，Flume加載日志到HDFS，Impala基于HDFS進行查詢

（2）REST API：通過HTP的方式訪問HDFS。

Hadoop核心組件：四步通曉HDFS

二、重點關注HDFS命令行的方式：

（1）從本地磁盤拷貝文件foo.txt到HDFS的用戶目錄

Hadoop核心組件：四步通曉HDFS

– 文件將會拷貝到/user/username/foo.txt

（2）獲取用戶home目錄的目錄列表

Hadoop核心組件：四步通曉HDFS

（3）獲取HDFS的根目錄

Hadoop核心組件：四步通曉HDFS

（4）顯示HDFS文件/user/fred/bar.txt內容

Hadoop核心組件：四步通曉HDFS

（5）拷貝文件到本地磁盤，命名為baz.txt

Hadoop核心組件：四步通曉HDFS

（6）在用戶home目錄下創建input目錄

Hadoop核心組件：四步通曉HDFS

（7）刪除input_old目錄和所有里面的內容

Hadoop核心組件：四步通曉HDFS

三、通過HUe進行操作。

通過File Browser可以瀏覽和管理HDFS的目錄和文件,也可以創建、移動、重命名、修改、上傳、下載和刪除目錄和文件,以及查看文件內容

Hadoop核心組件：四步通曉HDFS

四、HDFS推薦

HDFS是所有數據的倉庫，在使用HDFS的時候應該對其目錄（如日志目錄、數據目錄）進行合理地規劃和組織。最佳實踐方式是定義標準目錄結構以及把階段臨時的數據分開。規劃示例如下：

（1）/user-用戶目錄，存放屬于個別用戶的數據和配置信息

（2）/etl-ETL階段的數據

（3）/tmp-臨時生成的用戶在用戶間共享的數據

（4）/data-整個組織用來分析的和處理的數據集

（5）/app-非數據文件，比如：配置文件，JAR文件，SQL文件等

掌握以上四步對于應用HDFS有著重要的作用和意義，但是大家應該根據自己的情況循序漸進，注重實踐，才可以不斷取得進步。我平時喜歡找一些案例進行分析，從而鍛煉提升自己的技能，這個比較喜歡“大數據cn ”這個微信服務平臺。但是真知更多源于實踐，只有學習和了解他人的經驗，才可以走的更高更遠，我愛關注微信訂閱號“大數據時代學習中心”，研究各位數據大牛的經驗分享，對于促進我個人的技術成長有著非凡的意義。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Hadoop核心組件：四步通曉HDFS

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Hadoop核心組件：四步通曉HDFS

猜你喜歡

最新資訊

相關推薦

相關標簽