DBus基于可視化配置的日志結構化轉換方法是什么

發布時間：2021-12-20 09:24:26 來源：億速云閱讀：136 作者：iii 欄目：大數據

這篇文章主要講解了“DBus基于可視化配置的日志結構化轉換方法是什么”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“DBus基于可視化配置的日志結構化轉換方法是什么”吧！

DBus之基于可視化配置的日志結構化轉換實現

導讀：數據總線DBus的總體架構中主要包括六大模塊，分別是：日志抓取模塊、增量轉換模塊、全量抽取程序、日志算子處理模塊、心跳監控模塊、Web管理模塊。六大模塊各自的功能相互連接，構成DBus的工作原理：通過讀取RDBMS增量日志的方式來實時獲取增量數據日志（支持全量拉取）；基于Logstash，flume，filebeat等抓取工具來實時獲得數據，以可視化的方式對數據進行結構化輸出。

一、結構化日志的原理

源端日志抓取。
DBus可以對接多種log數據源，例如：Logstash、Flume、Filebeat等。上述組件都是業界比較流行的日志抓取工具，一方面便于用戶和業界統一標準，方便用戶技術方案的整合；另一方面也避免了無謂的重復造輪子。抓取的數據我們稱為原始數據日志（raw data log），由抓取組件將其寫入Kafka中，等待DBus后續處理。
可視化配置規則，使日志結構化。
用戶可自定義配置日志源和目標端。同一個日志源的數據可以輸出到多個目標端。每一條“日志源-目標端”線，用戶可以根據自己的需要來配置相應的過濾規則。經過規則算子處理后的日志是結構化的，即：有schema約束，類似于數據庫中的表。
規則算子。
DBus設計了豐富易用的算子，用于對數據進行定制化操作。用戶對數據的處理可分為多個步驟進行，每個步驟的數據處理結果可即時查看、驗證；并且可重復使用不同算子，直到轉換、裁剪出自己需要的數據。
執行引擎。
將配置好的規則算子組應用到執行引擎中，對目標日志數據進行預處理，形成結構化數據，輸出到Kafka，供下游數據使用方使用。系統流程圖如下所示：

根據DBus log設計原則，同一條原始日志，可以被提取到一個或多個表中。每個表是結構化的，滿足相同的schema約束。

每個表是一個規則算子組的集合，每個表可以擁有1個或多個規則算子組；
每個規則算子組，由一組規則算子組合而成，每個算子具有獨立性；

對于任意一條原始數據日志（raw data log），它應該屬于哪張表呢？

假如用戶定義了若干張邏輯表（T1,T2…），用于抽取不同類型的日志，那么，每條日志需要與規則算子組進行匹配：

進入某張表T1的所有規則算子組的執行過程
符合條件的進入規則算子組，并且被執行引擎轉換為結構化的表數據
不符合提取條件的日志嘗試下一個規則算子組
對于T1的所有規則算子組，如果都不滿足要求，則進入下一張表T2的執行過程，以此類推
如果該條日志不符合任何一張表的過濾規則，則進入_unknown_table_表

例如，對于同一條應用日志，其可能屬于不止一個規則組或Table，而在我們定義的規則組或Table中，只要其滿足過濾條件，該應用日志就可以被規則組提取，即保證了同一條應用日志可以同屬于不同的規則組或Table。

DBus基于可視化配置的日志結構化轉換方法是什么

規則算子是對數據進行過濾、加工、轉換的基本單元。常見的規則算子如上圖所示。

算子之間具有獨立性，算子之間可以任意組合使用，從而可以實現許多復雜的、高級的功能，通過對算子進行迭代使用，最終可以實現對任意數據進行加工的目的。用戶可以開發自定義算子，算子的開發非常容易，用戶只要遵循基本接口原則，就可以開發任意的算子。

二、DBus日志處理實例

以DBus集群環境為例，DBus集群中有兩臺機器（即master-slave）部署了心跳程序，用于監控、統計、預警等，心跳程序會產生一些應用日志，這些應用日志中包含各類事件信息，假如我們想要對這些日志進行分類處理并結構化到數據庫中，我們就可以采用DBus log程序對日志進行處理。

DBus可以接入多種數據源（Logstash、Flume、Filebeat等），此處以Logstash為例來說明如何接入DBus的監控和報警日志數據。

DBus基于可視化配置的日志結構化轉換方法是什么

由于在dbus-n2和dbus-n3兩臺機器上分別存在監控和預警日志，為此我們分別在兩臺機器上部署了Logstash程序。心跳數據由Logstash自帶的心跳插件產生，其作用是便于DBus對數據進行統計和輸出，以及對源端日志抽取端（此處為Logstash）進行預警（對于Flume和Filebeat來說，因為它們沒有心跳插件，所以需要額外為其定時產生心跳數據）。Logstash程序寫入到Kafka中的數據中既有普通格式的數據，同時也有心跳數據。這里不只是局限于2臺部署有Logstash程序的機器，DBus對Logstash數量不做限制，比如應用日志分布在幾十上百臺機器上，只需要在每臺機器上部署Logstash程序，并將數據統一抽取到同一個Kafka Topic中，DBus就能夠對所有主機的數據進行數據處理、監控、預警、統計等。

1、啟動Logstash

在啟動Logstash程序后，我們就可以從topic : heartbeat_log_logstash中讀取數據，數據樣例如下：

心跳數據：

DBus基于可視化配置的日志結構化轉換方法是什么

普通日志數據：

DBus基于可視化配置的日志結構化轉換方法是什么

2. 配置規則

接下來，我們只需要在DBus Web中配置相應的規則就可以對數據進行處理了。

首先新建一個邏輯表sink_info_table，該表用來抽取sink事件的日志信息，然后配置該表的規則組（一個或多個，但所有的規則組過濾后的數據需要滿足相同schema特性），heartbeat_log_logstash作為原始數據topic，我們可以實時的對數據進行可視化操作配置（所見即所得，即席驗證）。

DBus基于可視化配置的日志結構化轉換方法是什么