中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數據總線平臺DBus設計思路與工作原理

發布時間:2021-12-03 11:14:21 來源:億速云 閱讀:295 作者:柒染 欄目:互聯網科技

大數據總線平臺DBus設計思路與工作原理,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。

一、背景

企業中大量業務數據保存在各個業務系統數據庫中,過去通常的同步數據的方法有很多種,比如:

  • 各個數據使用方在業務低峰期各種抽取所需數據(缺點是存在重復抽取而且數據不一致)

  • 由統一的數倉平臺通過sqoop到各個系統中抽取數據(缺點是sqoop抽取方法時效性差,一般都是T+1的時效性)

  • 基于trigger或時間戳的方式獲得增量的變更(缺點是對業務方侵入性大,帶來性能損失等)

這些方案都不能算完美,我們在了解和考慮了不同實現方式后,認為要想同時解決數據一致性和實時性,比較合理的方法應該是基于日志的解決方案,同時能夠提供消息訂閱的方式給下游系統使用。

DBus(數據總線)項目就是應這個需求而生的,DBus專注于數據的收集及實時數據流計算,通過簡單靈活的配置,以無侵入的方式對源端數據進行采集,采用高可用的流式計算框架,對公司各個IT系統在業務流程中產生的數據進行匯聚,經過轉換處理后成為統一JSON的數據格式(UMS),提供給不同數據使用方訂閱和消費,充當數倉平臺、大數據分析平臺、實時報表和實時營銷等業務的數據源。

二、系統架構和工作原理

DBUS主要分為兩個部分:貼源數據采集和多租戶數據分發。兩個部分之間以Kafka為媒介進行銜接。無多租戶資源、數據隔離需求的用戶,可以直接消費源端數據采集這一級輸出到kafka的數據,無需再配置多租戶數據分發。

大數據總線平臺DBus設計思路與工作原理

2.1 DBUS源端數據采集

DBUS源端數據采集大體來說分為2部分:

  • 讀取RDBMS增量日志的方式來 實時獲取增量數據日志,并支持全量拉取;

  • 基于logtash,flume,filebeat等抓取工具來實時獲得數據,以可視化的方式對數據進行結構化輸出。

以下為具體實現原理

大數據總線平臺DBus設計思路與工作原理

主要模塊如下:

  • 日志抓取模塊:從RDBMS的備庫中讀取增量日志,并實時同步到kafka中;

  • 增量轉換模塊:將增量數據實時轉換為UMS數據,處理schema變更,脫敏等;

  • 全量抽取程序:將全量數據從RDBMS備庫拉取并轉換為UMS數據;

  • 日志算子處理模塊:將來自不同抓取端的日志數據按照算子規則進行結構化處理;

  • 心跳監控模塊:對于RDMS類源,定時向源端發送心跳數據,并在末端進行監控,發送預警通知;對于日志類,直接在末端監控預警。

  • web管理模塊:管理所有相關模塊。

2.2 多租戶數據分發

對于不同租戶對不同源端數據有不同訪問權限、脫敏需求的情形,需要引入Router分發模塊,將源端貼源數據,根據配置好的權限、用戶有權獲取的源端表、不同脫敏規則等,分發到分配給租戶的Topic。這一級的引入,在DBUS管理系統中,涉及到用戶管理、Sink管理、資源分配、脫敏配置等。不同項目消費分配給他的topic。

大數據總線平臺DBus設計思路與工作原理

主要功能:

  • 無侵入方式接入多種數據源: 業務系統無需任何修改,以無侵入性讀取數據庫系統的日志獲得增量數據實時變化。目前RDBMS支持mysql,oracle數據源(Oracle數據源請參考Oracle相關協議), 日志方面支持基于logstash,flume和filebeat的多種數據日志抽取方案。

  • 海量數據實時傳輸: 使用基于Storm的流式計算框架,秒級延時,整體無單點保證高可用性。

  • 多租戶支持: 提供用戶管理、資源分配、Topology管理、租戶表管理等豐富的功能,可根據需求,為不同租戶分配不同的源端表數據訪問權限,應用不同的脫敏規則,從而實現多租戶資源隔離、差異化數據安全。

大數據總線平臺DBus設計思路與工作原理

大數據總線平臺DBus設計思路與工作原理

大數據總線平臺DBus設計思路與工作原理

  • 感知源端schema變更: 當源端發生schema變更時,能自動感知schema變化,調整UMS版本號,并通過Kafka消息和郵件通知下游

大數據總線平臺DBus設計思路與工作原理

  • 數據實時脫敏: 可根據需求對指定列數據進行實時脫敏。脫敏策略包括:直接替換、MD5、murmur等脫敏算法,脫敏加鹽,正則表達式替換等。支持用戶開發jar包實現DBUS未覆蓋的個性化脫敏策略。 

大數據總線平臺DBus設計思路與工作原理

  • 初始化加載: 支持高效的初始化加載和重新加載,支持任意指定輸出topic,靈活應對客戶需求。

大數據總線平臺DBus設計思路與工作原理

  • 統一標準化消息傳輸協議: 使用統一的UMS(JSON格式)消息schema格式輸出便于消費,提供數據線級ums_id保證數據順序性,輸出insert,Update(before/after),Delete event數據。

大數據總線平臺DBus設計思路與工作原理

  • 可靠多路消息訂閱分發: 使用Kafka存儲和傳遞消息保證可靠性和便捷的多用戶訂閱

  • 支持分區表/系列表數據匯集: 支持分區表的數據匯集到一個“邏輯表” 。也可將用戶自定義的系列表數據匯集到一個“邏輯表“。例:

大數據總線平臺DBus設計思路與工作原理

  • 實時監控&預警: 可視化監控系統能隨時查看各數據線實時流量和延時狀況;當數據線發生異常時,根據配置策略自動發郵件或短信通知相關負責人

大數據總線平臺DBus設計思路與工作原理

看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

弥渡县| 广南县| 班戈县| 资溪县| 公安县| 成武县| 自贡市| 博湖县| 潜江市| 仪征市| 大英县| 关岭| 平远县| 北海市| 株洲市| 镇原县| 泌阳县| 确山县| 天镇县| 乌拉特前旗| 贵阳市| 阿拉善右旗| 太仓市| 石楼县| 中阳县| 永安市| 尼木县| 安顺市| 耒阳市| 托里县| 财经| 额济纳旗| 迁安市| 仁寿县| 称多县| 淳化县| 田林县| 新兴县| 通城县| 瓮安县| 荆门市|