中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何進行數據湖deltalake的分析

發布時間:2021-12-23 16:53:10 來源:億速云 閱讀:189 作者:柒染 欄目:大數據

本篇文章給大家分享的是有關如何進行數據湖deltalake的分析,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

1.delta特性簡介

Delta Lake是Spark計算框架和存儲系統之間帶有Schema信息數據的存儲中間層。它給Spark帶來了三個最主要的功能:

第一,Delta Lake使得Spark能支持數據更新和刪除功能;

第二,Delta Lake使得Spark能支持事務;

第三,支持數據版本管理,運行用戶查詢歷史數據快照。

核心特性

  1. ACID事務:為數據湖提供ACID事務,確保在多個數據管道并發讀寫數據時,數據能保持完整性。

  2. 數據版本管理和時間旅行:提供了數據快照,使開發人員能夠訪問和還原早期版本的數據以進行審核、回滾或重現實驗

  3. 可伸縮的元數據管理:存儲表或者文件的元數據信息,并且把元數據也作為數據處理,元數據與數據的對應關系存放在事務日志中;

  4. 流和批統一處理:Delta中的表既有批量的,也有流式和sink的;

  5. 數據操作審計:事務日志記錄對數據所做的每個更改的詳細信息,提供對更改的完整審計跟蹤;

  6. Schema管理功能:提供自動驗證寫入數據的Schema與表的Schema是否兼容的能力,并提供顯示增加列和自動更新Schema的能力;

  7. 數據表操作(類似于傳統數據庫的SQL):合并、更新和刪除等,提供完全兼容Spark的Java/scala API;

  8. 統一格式:Delta中所有的數據和元數據都存儲為Apache Parquet。

Delta的特性實現是基于事務日志,比如ACID事務管理、數據原子性、元數據處理和時間旅行等功能。

Delta Lake 說白了就是一個lib庫

Delta Lake 是一個lib 而不是一個service,不同于HBase,他不需要單獨部署,而是直接依附于計算引擎的。目前只支持Spark引擎。這意味什么呢?Delta Lake 和普通的parquet文件使用方式沒有任何差異,你只要在你的Spark代碼項目里引入delta包,按標準的Spark datasource操作即可,可謂部署和使用成本極低。

Delta Lake真實內容幕

Parquet文件 + Meta 文件 + 一組操作的API = Delta Lake.

所以Delta沒啥神秘的,和parquet沒有任何區別。但是他通過meta文件以及相應的API,提供眾多特性功能的支持。在Spark中使用它和使用parquet的唯一區別就是把format parquet換成detla。

如何進行數據湖deltalake的分析

上圖可以看出,數據湖目的實一站式提供各種數據服務。

2.delta測試

采用的Spark 3.0版本,delta是0.7版本進行測試,首先是導入依賴:

<dependency>  <groupId>io.delta</groupId>  <artifactId>delta-core_2.12</artifactId>  <version>0.7.0</version></dependency>

spark使用delta也很簡單,就如使用json,csv等數據格式一樣,只需要在format函數傳入delta字符串就可以了。比如創建一張表,scala的表達如下:

val data = spark.range(0, 5)data.write.format("delta").save("tmp/delta-table")

schema信息,他自己會從dataframe中推斷出來。

讀取一張表

spark.read.format("delta").load("tmp/delta-table").show()

delta lake的api對于spark來說基本是一致的,沒啥變動。delta底層是完全基于spark的,而且可以支持實時和離線,對于多讀少更新,多批次更新的場景也是可以的。

以上就是如何進行數據湖deltalake的分析,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

枣庄市| 博兴县| 麻城市| 江陵县| 东方市| 忻州市| 拉孜县| 清新县| 安化县| 翁牛特旗| 徐汇区| 突泉县| 瓦房店市| 乐至县| 鹿泉市| 西林县| 灵武市| 潢川县| 前郭尔| 南雄市| 巴马| 凌源市| 柞水县| 江华| 太仆寺旗| 惠安县| 杂多县| 新营市| 济阳县| 光山县| 资源县| 始兴县| 确山县| 胶州市| 定襄县| 乌苏市| 天祝| 杭州市| 敦化市| 鄂尔多斯市| 丰顺县|