中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

ETL架構中的子系統有哪些

發布時間:2021-11-09 16:39:37 來源:億速云 閱讀:129 作者:iii 欄目:關系型數據庫

這篇文章主要講解了“ETL架構中的子系統有哪些”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“ETL架構中的子系統有哪些”吧!

三個簡單的字母,E-T-L,很容易的讓大家忽視了38個ETL子系統在數據倉庫建設中的重要性。

抽取-轉換-加載(ETL)系統,或者非正式的稱為“后臺系統”,在建立整個數據倉庫系統中占據了70%的工作量和時間。但是這還不足以說明ETL系統的復雜性。每個人都理解這三個字母的含義,E,從源系統中將數據取出來;T,對這些數據做處理;L,加載到最終用戶訪問的表中。

但是當我們問及如何來分解這三大步驟時,很多設計人員都會說,“具體問題,具體分析”。例如,這依賴于不同的數據源;這依賴于數據的特性;這依賴于腳本語言以及可以使用的ETL工具的情況;這依賴于員工的技術能力;這還依賴于最終用戶使用的查詢和報表工具。

“具體情況,具體分析”是一個很危險的事情,因為它很容易稱為系統混亂的一個借口。伴隨著幾千個成功數據倉庫項目的經歷,我們整理出了一系列的最佳實踐。

最近的18個月,我們一直在鉆研ETL的實踐和ETL的產品。我們標識出了在每一個數據倉庫項目的后臺部分都會涉及到的38個子系統。壞消息是ETL系統確實占據了數據倉庫項目的大部分資源。好消息是如果你能掌握所有的這些子系統,你就可以很容易的使用你的經歷來建立成功的數據倉庫系統。

1.抽取系統(Extract System)

主要功能包括源數據的適配器,推/拖/搬運數據的工作調度,對源數據的過濾和排序功能,數據格式的轉換,遷移到ETL環境后的數據暫存功能。

2.變化數據捕獲系統(Change Data Capture System)

主要功能包括對源數據日志文件的閱讀功能,源數據日期和序列號的過濾功能,基于CRC算法的記錄比較功能。

3.數據概況分析系統(Data Profiling System)

主要功能包括字段屬性分析,如參照域的分析;結構分析,如主外鍵關系分析;數據規則分析;值規則分析等。

4.數據清洗系統(Data Cleansing System)

主要功能包括一個典型的數據字典驅動的系統,用于解析個體和組織的名稱、地址等信息,也用來解析產品、場所等內容;一個“De-duplication”系統,用于鑒別和移除個體和組織信息,也用于產品和場所;一個“Surviving”系統,使用特定的數據合并邏輯,用來保存特定數據源的指定字段,這個特定數據源的數據將成為數據倉庫的最終版本;為所有的數據源維護后臺數據的對應關系,如自然鍵和代理鍵對應關系等內容。

5.數據一致性處理系統(Data Conformer System)

主要功能包括標識和生成專用的一致性維度屬性、一致性事實的度量屬性,這兩組屬性作為數據整合工作的基礎,用來支持跨多個數據源的數據集成工作。

6.審計維度生成系統(Audit Dimension Assembler System)

主要功能是將與事實表相關的元數據內容加載到一張審計維度表中,這樣最終用戶可以像查看普通維度一樣查看與事實表相關的元數據。

7.數據質量過濾系統(Quality Screen Handler System)

主要功能是在ETL的處理過程中自動的檢測所有的數據質量問題。檢測的結果將進入錯誤事件處理系統(詳見子系統8)。

8.錯誤事件處理系統(Error Event Hander System)

主要功能是全面的記錄和報告在ETL處理中的所有的錯誤事件。包括各類錯誤的分枝處理邏輯,還包括對ETL處理中數據質量的實時監控。

9.代理鍵生成系統(Surrogate Key Create System)

主要功能是以一種魯棒的機制生成流水的代理鍵,生成規則不依賴與任何維度,也不依賴與任何數據庫實例,可以支持分布式系統。

10.緩慢變化維處理系統(Slowly Changing Dimension Processor,SCD)

主要功能是處理維度表的屬性隨時間變化的情況,處理方式為:類型1(直接覆蓋),類型2(生成新行),類型3(添加新列)。

11.遲到維度處理系統(Late Arriving Dimension Handler)

主要功能是當維度數據的變化情況到達數據準備區的時間晚于對應的事實數據時,對維度數據的插入和更新策略。

12.固定層級結構生成系統(Fixed Hierarchy Dimension Builder)

主要功能是對維度表中各類多對一關系的層級結構進行數據有效性檢查和維護。

13.可變層級結構生成系統(Variable Hierarchy Dimension Builder)

主要功能是對維度表中所有的層深可變的層級結構的的數據有效性檢查和維度,例如組織的層級結構,零件的層級結構等。

14.多值維度橋接表生成系統(Multivalued Dimension Bridge Table Builder)

主要功能是建立和維護橋接表,用來描述維度間的多對多關系。

15.雜項維度生成系統(Junk Dimension Builder)

主要功能是將來自多個數據源的多個低基數的標志字段、狀態字段等小型維度建立成一個雜項維度,并對之進行維護。

16.交易粒度事實表加載系統(Transaction grain fact table loader)

主要功能是更新交易粒度事實表,包括對數據、索引和分區的處理。通常是用來處理增量數據,即最新的數據。需要使用代理鍵替換管道系統(詳見子系統19)。

17.周期快照事實表加載系統(Periodic snapshot grain fact table loader)

主要功能是更新周期快照事實表,包括對數據、索引和分區的處理。包括對當期數據的增量更新策略。需要使用代理鍵替換管道系統(詳見子系統19)。

18.累計快照事實表加載系統(Accumulating snapshot grain fact table loader)

主要功能是更新累積快照事實表,包括對數據、索引和分區的處理,同時更新維度外鍵和累積事實。需要使用代理鍵替換管道系統(詳見子系統19)。

19.代理鍵替換管道系統(Surrogate key pipeline)

主要功能是使用多線程技術將來到數據倉庫數據的自然鍵替換為代理鍵。

20.遲到事實處理系統(Late arriving fact handler)

主要功能是處理對遲到事實記錄的插入和更新策略。

21. 聚合生成系統(Aggregate builder)

主要功能是創建和維護數據庫物理結構,比如說聚合表,用于和 query-rewrite 技術配合使用,以提高數據庫查詢性能。也包括獨立的聚合表和物化表。

22. 多維cube生成系統(Multidimensional cube builder)

主要功能是創建和維護星型架構用于裝載多維cube,包括cube技術的一些專有工作,比如維度層次結構的維護。

23. 實時分區生成系統(Real-time partition builder)

三種事實表類型(參照子系統16,17,18)的特殊邏輯在內存中維護著一個“熱分區”,它只包含最近一次已經統計到數據倉庫表中以后的部分增量數據。

24. 維度管理子系統(Dimension manager system)

顧名思義,它是一個管理維度表的系統。它負責從集中存放維度表和事實表之間的維度一致性,請參照子系統25。

25.事實管理系統(Fact table provider system)

對應于維度表管理系統,它是一個事實表的管理系統,它接收從維度管理系統發過來的一致性維度。包括本地鍵替換,維度版本檢查,和聚合表等維護系列工作。

26.任務調度系統(Job scheduler)

它負責ETL任務的安排和啟動。它能夠等待各種系統條件包括對優先級高的任務完成的依賴。能夠針對異常情況發送警告。

27.工作流程監視系統(Workflow monitor)

它的主要功能是有控制臺和報表系統用以監控ETL任務被任務調度系統啟動以后的執行狀況。包括處理的記錄條數,錯誤摘要,和執行的活動。

28.恢復和重做系統(Recovery and restart system)

當任務執行過程中任務暫停后的重新啟動,或者是恢復到任務執行前的狀態重新執行。這個子系統嚴重依賴于備份子系統(參考子系統38)。

29.并行處理和管道處理系統(Parallelizing/pipelining system)

它的主要功能是利用多處理器,網格計算資源以提高性能,和實現數據流處理。當不是寫硬盤操作或者是執行過程中等待一個條件的發生的ETL的情況,是有必要采用并行化和管道化的。

30.異常放大系統(Problem escalation system)

它的主要功能是負責在一定的條件下提高錯誤的級別以跟蹤和解決問題。包括簡單錯誤日志記錄,操作者通知,管理員通知和系統開發人員通知。

31.版本控制系統(Version control system)

使得元數據的歸檔能夠有堅固的快照功能,可以查閱某一時刻改變前后的狀態。能夠遷入和遷出所有ETL模塊和任務。源代碼對比功能以快速展示改變前后的不同。

32.版本移植系統(Version migration system)

讓程序可以在開發環境,測試環境,正式環境快速切換。版本控制系統的用于恢復移植的一個接口,也是配置完整數據庫連接信息的一個接口。使得代理鍵生成不依賴于數據庫的位置。

33.體系和依賴分析系統(Lineage and dependency analyzer)

對任何選中的數據組件,都要展示它的物理數據源和所有的后來的轉換,不管是選中ETL管道中間的組件,或者是選中最終的數據結果,都一樣展示。對任何選中的數據組件,都要展示它的下游的數據組件和可能會造成改變的最終數據結果的字段結構,不管是選中ETL管道中間的組件,或者是選中數據源,都一樣展示。

34.符合規定報告系統(Compliance reporter)

符合規定的規則以證明系統報告的可信度。證明數據和轉換沒有改變。展示誰訪問過或者改變過任何數據。

35.安全控制系統(Security system)

在ETL的管道中,實現對所有數據和元數據基于角色的權限控制。證明模塊的版本沒有改變。展示誰做過任何更改。

36.備份系統(Backup system)

對數據和元數據的備份,用于以后的數據的恢復,重啟,安全,和符合規定的要求。

37.元數據管理系統(Metadata repository manager)

用于捕獲和維護所有ETL的元數據的系統,包括所有轉換邏輯。包括處理元數據,技術元數據和業務邏輯元數據。

38.項目管理系統(Project management system)

對所有ETL任務進行開發的跟蹤系統。

感謝各位的閱讀,以上就是“ETL架構中的子系統有哪些”的內容了,經過本文的學習后,相信大家對ETL架構中的子系統有哪些這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

etl
AI

成都市| 广宁县| 拉孜县| 新绛县| 绩溪县| 太原市| 共和县| 彝良县| 海兴县| 乐至县| 辽宁省| 田林县| 博客| 弥勒县| 棋牌| 海淀区| 牙克石市| 磐石市| 潜江市| 双牌县| 新田县| 城口县| 陆丰市| 卫辉市| 桦甸市| 乌拉特前旗| 南宫市| 普定县| 边坝县| 彭泽县| 冀州市| 会东县| 梅河口市| 伊宁县| 桃源县| 东丰县| 称多县| 芜湖县| 兰坪| 济南市| 青神县|