中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

HDFS主要解決的問題以及與IPFS的區別是什么

發布時間:2021-12-07 19:26:45 來源:億速云 閱讀:250 作者:柒染 欄目:大數據

今天就跟大家聊聊有關HDFS主要解決的問題以及與IPFS的區別是什么,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。

HDFS主要解決什么問題,與IPFS有什么不同?

近年,隨著區塊鏈、大數據等技術的推動,全球數據量正在無限制地擴展和增加。分布式存儲的興起與互聯網的發展密不可分,互聯網公司由于其大數據、輕資產的特點,通常使用大規模分布式存儲系統。

與傳統的高端服務器、高端存儲器和高端處理器不同的是,互聯網公司的分布式存儲系統由數量眾多的、低成本和高性價比的普通 PC 服務器通過網絡連接而成。由于互聯網的業務發展迅猛,使得存儲系統架構不能依靠傳統的縱向擴展的方式,即先買小型機,不夠時再買中型機,甚至大型機。互聯網后端的分布式系統要求支持橫向擴展,即通過增加普通 PC 服務器來提高存儲系統的整體處理能力。

另外,隨著服務器的不斷加入,需要能夠在軟件層面實現自動負載均衡,使得系統的處理能力得到線性擴展。在這種情況下,分布式存儲的成為大多數企業的必然選擇。

那么分布式存儲的種類有哪些呢?

分布式存儲包含的種類繁多,除了傳統意義上的分布式文件系統、分布式塊存儲和分布式對象存儲外,還包括分布式數據庫和分布式緩存等,但其中架構無外乎于三種:

A、中間控制節點架構 - 以 HDFS 為代表的架構是典型的代表

B、完全無中心架構 – 計算模式,以 Ceph 為代表的架構是其典型的代表

C、完全無中心架構 – 一致性哈希,以 swift 為代表的架構是其典型的代表

這里我們主要對比下HDFS與IPFS

HDFS的簡介

HDFS(Hadoop Distributed File System)是hadoop項目的核心子項目,是分布式計算中數據存儲管理的基礎。是基于流數據模式訪問和處理超大文件的需求而開發的, 可以運行于廉價的商用服務器上。

它所具有的高容錯、 高可靠性、 高可擴展性、 高獲得性、 高吞吐率等特征為海量數據提供了不怕故障的存儲, 為超大數據集(Large Data Set) 的應用處理帶來了很多便利。

HDFS是開源的,存儲著Hadoop應用將要處理的數據,類似于普通的Unix和linux文件系統,不同的是它是實現了google的GFS文件系統的思想,是適用于大規模分布式數據處理相關應用的、可擴展的分布式文件系統。

為什么需要HDFS?

小量的數據,單機的磁盤是能夠很好地處理面對的數據,但當數據量巨大(PB)時,磁盤開始糾結處理我們需要的海量信息。我們無法提升單個磁盤的傳輸速度, 因為這個技術已經沒有空間了 只能將大任務分解成小任務 , 一塊磁盤分解成多個磁盤。 對多個磁盤上的文件進行管理, 就是分布式文件管理系統—HDFS

HDFS主要解決的問題以及與IPFS的區別是什么

HDFS的功能

1)數據的分布式存儲和處理。

2)Hadoop 提供了一個命令接口來與 HDFS 進行交互。

3)namenode 和 datanode 的內置服務器可幫助用戶輕松檢查群集的狀態。

4)對文件系統數據的流式處理訪問。

5)HDFS 提供文件權限和身份驗證。

HDFS系統架構 及主要組件

在之前分步啟動Hadoop集群時大家應該注意到了,集群中與HDFS相關的進程有兩類,分別是namenode與datanode。HDFS是一個主從架構的系統,其中namenode作為主節點管理著多個從工點datanode。其架構圖如下所示:

HDFS主要解決的問題以及與IPFS的區別是什么

Namenode:
管理維護著文件系統樹以及整個文件樹內所有的文件和目錄即文件系統的元數據; 控制客戶端對文件的訪問; 它還執行文件系統操作, 如重命名,關閉和打開文件/目錄。DateNode:
管理所存儲的數據;按照客戶端的請求, 執行在文件系統上的讀寫操作;還根據NameNode的指令執行操作如block的創建、 刪除和備份。

Block
通常用戶的數據存儲在HDFS上的文件中;該文件將被拆分為一個或多個片段, 并存儲在單個的數據節點;這些文件片段稱為blocks。 換句話說, HDFS可讀寫的最小數據量叫做Block。 默認的block大小是64MB/128M(可根據配置增加)。

Rack
安裝集群計算機的機架,一個機架可以安裝幾臺計算機,在整個Hadoop集群中又會有幾個這樣的機架組成。

如果客戶端需要從某個文件讀取數據,首先從 NameNode 獲取該文件的位置,然后從該 NameNode 獲取具體的數據。在該架構中 NameNode 通常是主備部署( Secondary NameNode ),而 DataNode 則是由大量節點構成一個集群。由于元數據的訪問頻度和訪問量相對數據都要小很多,因此 NameNode 通常不會成為性能瓶頸,而 DataNode 集群中的數據可以有副本,既可以保證高可用性,可以分散客戶端的請求。因此,通過這種分布式存儲架構可以通過這種分布式存儲架構可以通過橫向擴展 datanode 的數量來增加承載能力,也即實現了動態橫向擴展的能力。

通常,用戶數據存儲在 HDFS 的文件中。文件系統中的文件將分為一個或多個片段存儲在單個數據節點中。這些文件段稱為block。換句話說,HDFS 可以讀取或寫入的最小數據量稱為block。默認塊大小為 64MB,可以根據 HDFS 配置進行更改。

HDFS的特點

1、故障檢測和恢復 – 由于 HDFS 包含大量產品硬件,組件故障頻繁。因此,HDFS 應具有快速自動故障檢測和恢復的機制。

2、數據集的管理 – HDFS 每個群集都有數百個節點來管理具有大型數據集的應用程序。

3、數據硬件處理 – 當計算在數據物理附近時,可以高效地完成請求的任務。特別是在涉及大量數據集時,它減少了網絡流量并提高了吞吐量。

IPFS的簡介

IPFS(Inter Planetary File System),又叫星際文件系統。IPFS在2015年開啟,目前已經有5年時間了。IPFS和Filecoin一直熱度不斷,影響力也是越來越大。在這里我們先撇開區塊鏈部分的Filecoin不談,重點分析下IPFS在分布式存儲方面的應用。

HDFS主要解決的問題以及與IPFS的區別是什么

IPFS的工作原理

第一個原理,就是在IPFS系統中,每個文件都會被進行 Hash 處理,并生成數字指紋。

第二,就是我們要查找文件時,IPFS 通過使用一個分布式哈希表,可以快速找到擁有數據的節點進行檢索,并使用哈希驗證其是否為正確的數據,從而找到我們想要的文件。

第三, IPFS會通過網絡刪除重復的、具有相同哈希值的文件,也就是說,它通過計算是可以判斷哪些文件是冗余重復的,并跟蹤每個文件的版本歷史記錄。

第四,每個網絡節點只存儲它感興趣的內容,以及一些索引信息,有助于我們弄清楚誰在存儲什么。

第五,使用稱為 IPNS(去中心化命名系統),每個文件都可以被協作命名為易讀的名字,通過搜索,我們就能很容易地找到想要查看的文件。

由于,IPFS跟HTTP協議,都被稱為互聯網底層協議。那么上網的時候,我們經常能看到這樣一串字符,http://  www.baidu.com,或者是http:// www.taobao.com、或是http://  www.aiqiyi.com等……,這就是我們俗稱所謂的域名。但IPFS有非常優于HTTP的地方,主要體現在以下幾個方面:

IPFS它的安全性更高。一方面,IPFS中的每個文件及其中的所有塊,都被賦予了一個稱為加密散列的唯一指紋;另一方面,IPFS是一個點對點的分布式文件系統,是可以用來存儲文件的,這個文件我們可以理解為:包括文本、圖片、音頻、視頻等等;再者,由于IPFS的工作機制是將整個文件進行拆散, 然后儲存在全球的不同節點。需要數據的時候,通過文件的索引從原來存儲的位置找回來,能夠保護數據的隱私與安全性。

舉例BAT,我們現在使用的云儲存方式是:我們把數據交給BAT(百度云、阿里云、騰訊云),需要數據的時候找BAT拿回來。這個過程看上去沒什么毛病,可一旦BAT的服務器停機,或者是你的隱私被偷窺了呢?

IPFS它的去中心化使得數據上傳、下載速度可以更快,還能夠讓數據永久化的存儲。因為IPFS是由全球的存儲節點構成的,也就是說未來我們可以在世界的每個角落,都可以快速的訪問存儲在ipfs網絡上的文件。簡單地說就是把這些文件進行加密,然后存儲到電腦、手機等等這些使用硬盤的儀器當中。

從上述的原理中我們可以清晰地看出,在存儲方面IPFS與傳統的分布式存儲是完全不同的,是完全去中心化的。

HDFS與IPFS對比

HDFS主要解決的問題以及與IPFS的區別是什么

a 、應用對象

HDFS主要是企業級的應用,針對企業的大文件存儲,因為 HDFS 采用的是以元數據的方式進行文件管理,而元數據的相關目錄和塊等信息保存在 NameNode 的內存中, 文件數量的增加會占用大量的 NameNode 內存。如果存在大量的小文件,會占用大量內存空間,引起整個分布式存儲性能下降,所以盡量使用 HDFS 存儲大文件比較合適。而IPFS主要是針對個人用戶市場,根據個人的文件進行存儲,存儲的節點越多,存儲的文件越多,整個文件系統的穩定性也就越高。

b 、讀寫頻次

HDFS適合低寫入,多次讀取的業務。HDFS 的數據傳輸吞吐量比較高,但是數據讀取延時比較差,不適合頻繁的數據寫入。IPFS對于文件的讀取和寫入具有很強的包容性和擴展性,文件的讀取和寫入越多,整個基于IPFS的經濟生態系統也就越繁榮,在系統中的用戶也就越受益。

c 、存儲環境

HDFS 采用多副本數據保護機制,使用普通的 X86 服務器就可以保障數據的可靠性,不推薦在虛擬化環境中使用。IPFS使用個人的普通服務器即可作為節點,運行IPFS系統,提供去中心化的存儲服務

d、存儲系統

HDFS 主要針對大企業,雖是分布式存儲,其主要的控制著仍是企業主體,屬于一個封閉的存儲系統。IPFS完全去中心化的操作,任何企業和個人都可以接入存儲網絡。

e、尋址方式

HDFS如果客戶端需要從某個文件讀取數據,首先從 NameNode 獲取該文件的位置,然后從該 NameNode 獲取具體的數據,IPFS則是直接從內容所在的節點獲取文件,是基于內容獲取的方式。

基于IPFS技術開發的應用也不斷出現,IPFS直接整合至Brave瀏覽器中,將 Hadoop 置于IPFS之上進行p2p數據分析,PeerPad利用IPFS構建無服務器、實時的、離線協作式應用等。在陸續與微軟、美國宇航局(NASA)等知名機構、企業建立合作關系后,IPFS的實際應用價值得到了進一步深化。

總結IPFS/IPSE分布式架構的優點:

去中心化

分布式節點網絡,無單點問題

加密技術保護數據完整性和安全性

存儲成本和傳輸成本遠低于中心化系統

看完上述內容,你們對HDFS主要解決的問題以及與IPFS的區別是什么有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

曲周县| 甘孜县| 云安县| 敖汉旗| 大港区| 定结县| 三台县| 邹平县| 太原市| 百色市| 宁城县| 桂林市| 凤山市| 锡林浩特市| 本溪市| 宜都市| 紫金县| 囊谦县| 博野县| 嵊泗县| 许昌市| 遂川县| 石台县| 文登市| 多伦县| 任丘市| 嘉义市| 思茅市| 永福县| 磐安县| 长治市| 宝鸡市| 扶沟县| 手机| 昆明市| 安阳市| 五寨县| 大关县| 安丘市| 辉县市| 志丹县|