您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關HDFS適合做什么,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
HDFS適合做:
存儲大文件。上G、T甚至P。
一次寫入,多次讀取。并且每次作業都要讀取大部分的數據。
搭建在普通商業機群上就可以了。雖然會經常宕機,但HDFS有良好的容錯機制。
HDFS不適合做:
實時數據獲取。如果有這個需求可以用HBase。
很多小文件。因為namenode要存儲HDFS的metadata(比如目錄的樹狀結構,每個文件的文件名、ACL、長度、owner、文件內容存放的位置等等信息),所以HDFS上文件的數目受到namenode內存的限制。
并發環境下的寫入和修改。
Block
一個磁盤的block通常是512B,內核一次讀寫磁盤不能少于這個數目。在HDFS上一個Block的默認大小是64M,HDFS block的大小可以通過ds.block.size來設置,很多工作站上把一個block調為128M。之所以要把block設置得這么大,是因為HDFS上的文件普遍都是大文件,如果block很小,那一個文件就要存放在很多block上,而這些位置信息都要被namenode所記錄,一來浪費namenode的存儲空間,二來檢索一個文件的時候開銷也比較高。
當一個文件的長度小于一個block size時,它會單獨占用一個block,但它占用的磁盤空間仍然是其真實的長度。
Namenode和Datanode
namenode管理文件系統的namespace,而datanode負責存儲和檢索block。一般情況下一個block會存放在多個不同的datanode上,以提高容錯性。datanode在讀寫HDFS文件時,都需要通過namenode來獲知讀寫的具體位置。
你可以使用distcp命令在不同的datanode之間并行地復制大文件:
$ hadoop distcp hdfs://datanode1/foo hdfs://datanode2/bar
HDFS上的文件是使用URI來定位的,前綴都是hdfs://localhost:9000,你可以把這個前綴賦給屬性fs.default.name(屬性可以在配置文件中指定,也可以在代碼中指定),這樣你就不用每次都寫這個前綴了,比如以下2個命令是等價的:
$ hadoop fs -ls /
$ hadoop fs -ls hsfs://localhost:9000/
本地文件系統的前綴是file://
orisun@zcypc:~$ hadoop fs -ls file:///Found 22 items drwxr-xr-x - root root 4096 2012-08-02 19:17 /home dr-xr-xr-x - root root 0 2012-08-20 22:14 /proc drwxr-xr-x - root root 4096 2010-04-23 18:11 /mnt drwx------ - root root 4096 2012-08-18 10:46 /root drwxr-xr-x - root root 4096 2012-08-18 10:40 /sbin ……
HDFS默認的文件備份數量是3,這個可以在dfs.replication屬性中設置,在偽分布式模式中由于datanode只有一個,所以要把該值設為1。當你使用hadoop fs -ls命令時會得到形如:
drwxr-xr-x - orisun supergroup 0 2012-08-20 14:23 /tmp
-rw------- 1 orisun supergroup 4 2012-08-20 14:23 /tmp/jobtracker.info
跟UNIX下的ls命令很像,其中第2列就是replication的數目,第5列是文件的長度,以B為單位(文件夾的長度是0,而在UNIX文件系統中目錄的長度是512B的整倍數,因為目錄所占的空間是以塊為分配單位的,每塊為512B)。
FSDataInputStream繼承自Java的DataInputStream并支持隨機讀寫。
public class FSDataInputStream extends DataInputStream implements Seekable, PositionedReadable {}
public interface Seekable { void seek(long pos) throws IOException; long getPos() throws IOException; boolean seekToNewSource(long targetPos) throws IOException; }
FSDataInputStream還可以從指定的位置讀取文件的一部分。
public interface PositionedReadable { public int read(long position, byte[] buffer, int offset, int length) throws IOException; public void readFully(long position, byte[] buffer, int offset, int length) throws IOException; public void readFully(long position, byte[] buffer) throws IOException; }
如果你想在HDFS上新建一文件可以使用
public FSDataOutputStream create(Path f) throws IOException
使用create()函數時注意2點:文件必須之前不存在;它可附帶地創建任意多級的父目錄。
有時候你可能會需要用append(),在文件不存在時會創建它。
public FSDataOutputStream append(Path f) throws IOException
重命名文件
public void rename(String oldName,String newName)
當然你也可以用mkdir來創建目錄
public boolean mkdirs(Path f) throws IOException
由于create()可以附帶地創建任意多級的父目錄,所以mkdir你并不會常用。
FileSystem的getFileStatus()方法可以獲取文件和目錄的FileStatus。
Path file = new Path("/dir/file"); FileStatus stat = fs.getFileStatus(file);
然后你就可以訪問:
stat.getPath() stat.getLen() stat.isLen() stat.getMogificationTime() stat.getReplication() stat.getBlockSize() stat.getOwner() stat.getReplication() stat.getBlockSize() stat.getGroup() stat.getPermission()
實際上上述信息都存儲在namenode中。
你還可以獲取一個目錄下所有文件的FileStatus。
public FileStatus[] listStatus(Path f) throws IOExceptionpublic FileStatus[] listStatus(Path f, PathFilter filter) throws IOExceptionpublic FileStatus[] listStatus(Path[] files) throws IOExceptionpublic FileStatus[] listStatus(Path[] files, PathFilter filter) throws IOException
在指定文件時,hadoop同樣支持globbing,它支持的wildcard有:
* 0個或多個任意字符
? 任意單個字符
[ab] [^ab] [a-b] [^a-b]
{exp1,exp2} 匹配exp1或exp2
\c 轉義
fs.listStatus(new Path("/2007/*/*"), new RegexExcludeFilter("^.*/2007/12/31$"))
將匹配2007年的所有文件,但是2007-12-31的文件將被filter掉。
public boolean delete(Path f, boolean recursive) throws IOException
刪除目錄時可以選擇是否啟用遞歸模式。
上面已經提到大量的小文件會極大消耗namenode的內存,所以在這種情況下我們需要使用Hadoop Archives(HAR)把文件歸檔為一個大文件。
$ hadoop archive -archiveName orisun.har -p /user/orisun /user
把/user/orisun下的所有文件打包成orisun.tar放在/user目錄下。
你還可以查看一個har文件中包含哪些文件:
orisun@zcypc:~$ hadoop fs -lsr har:///user/orisun.hardrwxr-xr-x - orisun supergroup 0 2012-08-20 16:49 /user/orisun.har/mse-rw-r--r-- 1 orisun supergroup 0 2012-08-20 16:49 /user/orisun.har/mse/list-rw-r--r-- 1 orisun supergroup 0 2012-08-20 16:49 /user/orisun.har/book orisun@zcypc:~$ hadoop fs -ls har:///user/orisun.har/mseFound 1 items-rw-r--r-- 1 orisun supergroup 0 2012-08-20 16:49 /user/orisun.har/mse/list
HAR也是一個文件系統,一個Har URI的完整模式是har://<scheme>-<host>/<path>
orisun@zcypc:~$ hadoop fs -lsr har://hdfs-localhost:9000/user/orisun.har/mse-rw-r--r-- 1 orisun supergroup 0 2012-08-20 16:49 /user/orisun.har/mse/list
刪除har文件必須使用rmr命令,用rm是不行的。
$ hadoop fs -rmr /user/orisun.har
使用HAR的一些限制:
會產生原始文件的完整備份,占用磁盤空間。當然你可以以在建好har文件后把原文件刪掉。
HAR只是把多個文件打包成一個文件并沒有采用任何的壓縮策略。
HAR文件是不可變,如何你想增加或從har中刪除一個文件,你只能重新歸檔。
InputFormat不理會har的存在,這意味著har文件對于MapReduce來說仍然會產生多個InputSlit,不會提高效率。要解決“小文件很多導致map task很多”的問題,可以采用CombineFileInputFormat。
關于“HDFS適合做什么”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。