中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何分析數據湖存儲架構選型

發布時間:2022-01-12 16:28:32 來源:億速云 閱讀:160 作者:柒染 欄目:云計算

這篇文章給大家介紹如何分析數據湖存儲架構選型,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。

一、數據湖是個潮流

簡單來講,數據湖的理念就是說從一個企業的視角來講,把整個數據集中的統一的存儲在一起,主要通過 BI 和 AI 的手段來計算分析原始的數據。數據的類型不光是結構化、半結構化的,還包括音視頻,這樣的一些材料。
我們為什么要基于數據湖來做這樣的一個轉型呢,數據湖能夠給我們帶來什么樣的好處呢。
第一,打破數據孤島。就是說原始的數據我們先不考慮怎么去處理它、分析它,甚至是說我們先不考慮它到底會不會解決很大的業務上面的問題,我們先把它放在一起,打破數據孤島,為后面的業務發展演化和計算,可能就提供了很好的一個機會。
第二,基于統一的、集中的整個數據的收集,可以支持各種各樣的計算。
第三,彈性。我們數據湖本身是有彈性的,然后支持的計算也是有彈性的。彈性可能在云上面帶來成本的很大的伸縮性的空間,為我們優化存儲和計算的成本帶來了這樣一個可能。
第四,管理。我們把數據放在一起,可以提供統一的、集中的這樣一個管理控制。
熟悉 Hadoop 整個生態的話,過去經常會談到一個非常大的、非常復雜的生態的大圖。那個圖里面涉及到非常多的組件,結構關系非常復雜。而基于數據湖的架構,可以得到大大的簡化。
如下圖所示,最下面是數據湖本身,基于這樣的一個數據湖存儲,我們可以有一個統一的元數據服務,做數據湖的創建管理,然后圍繞數據湖做數據的治理開發,和各種數據源的集成打通。但是這個并不是目的,最主要的作用還是說我們要做計算。數據湖的計算,簡單來講就是說我們有各種各樣的開源的 BI 的引擎,或者 AI 的引擎,每個引擎可能有自己的集群,然后基于數據湖來進行相應的計算場景的處理。然后滿足我們最上面的基于數據湖的各種應用,比如說數據大屏,數據報表,數據挖掘,機器學習。

二、湖存儲/加速:挑戰很大

數據湖架構里面,對于存儲的挑戰很大。
第一,最大的一個因素是數據量的問題。按照數據湖的理念,我們要把所有的數據全部都放在一起,那么在數據的規模上來講是非常大的,數據規模可以膨脹到 PB、EB 級別。
第二,文件的規模。從存儲系統的角度來講,文件的規模可以說也是非常大,要么就是層次非常深,要么就是非常扁平。扁平就是說一個目錄下可能會有幾百萬的文件數,形成這樣一個超大的目錄。
第三,成本。我要收集那么多的數據,我要把全部原始的數據放在一起,成本上怎么去優化。
另外一個挑戰就是說,按照數據湖的架構,它背后的本質是存儲和計算分離。現在是專業化的分工,存儲的做存儲,計算的做計算,這個帶來非常大的研發效率的這樣一個提升。但是分離了之后,怎么滿足計算的吞吐,怎么滿足計算對性能的這樣一個需求,這也是帶來很大挑戰的一個原因。  
另外,在數據湖的整個的方案下面,要考慮到計算場景是非常豐富的,計算的環境也是錯綜復雜的。大數據,我們要支持分析、交互式、實時計算。然后 AI 有自己的各種各樣的引擎來訓練。  
然后是計算的場景,包括 EMR 、ECS 自建、云原生、混合云。這樣的一些環境可能都會涉及到,我們怎么提供一個統一、集中的存儲的解決方案,來滿足這樣一個豐富的計算場景和環境。
假設我們能夠克服數據量上面的挑戰,滿足各種計算的環境,也能夠提供緩存加速,也能夠滿足存儲的這樣一個性能。現在架構師決定了我們要做數據遷移,實施層面的挑戰是什么。我們要做大量數據的遷移,之后要做正確性的比對。另外,比如說, Hive 數倉,Spark 作業,可能上千上萬的作業我們決定要遷移,遷移了之后要做結果的比對。遷移上來之后,可能我過去有一套成熟的治理、運維的體系,在新的架構下面,我怎么能夠盡量少改,能夠繼續得到支持。這是實施層面的挑戰。

三、完美選項之 checklist

數據湖架構下面,從存儲、加速的視角,我們可以看到有這樣一些挑戰,那么理想的選型是什么樣子的,要考慮到哪些因素,這里做了一個總結。
  • 第一, 基于對象存儲,大規模存儲能力。
  • 第二,大目錄元數據操作能力。
  • 第三,策略靈活的緩存加速能力。
  • 第四,和計算打通優化的能力。
  • 第五,支持數據湖新型表格存儲的能力。
  • 第六,歸檔/壓縮/安全存儲的能力。
  • 第七,全面的大數據+ AI 生態支持。
  • 第八,強大遷移能力,甚至是無縫遷移能力。
以上就是作為一個理想的數據湖的存儲、加速方案,最好具備的一個 checklist 。考慮升級到數據湖架構的這樣一些架構師可以對照一下這個 checklist ,來做方案的選型。

關于如何分析數據湖存儲架構選型就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

临颍县| 西乌珠穆沁旗| 静乐县| 清镇市| 泰顺县| 巨野县| 娄底市| 通江县| 西林县| 阳江市| 惠来县| 正蓝旗| 泾源县| 大冶市| 望奎县| 乌恰县| 邵东县| 张家港市| 东丽区| 于都县| 广宗县| 遵义市| 吕梁市| 广汉市| 敦煌市| 伊金霍洛旗| 铜川市| 交口县| 宜黄县| 高邮市| 抚州市| 南京市| 福清市| 盐源县| 广昌县| 屯留县| 吴桥县| 洪雅县| 常德市| 阳高县| 遂溪县|