您好,登錄后才能下訂單哦!
這篇文章主要為大家展示了“數據倉庫基本架構是怎么樣的”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“數據倉庫基本架構是怎么樣的”這篇文章吧。
數據倉庫的基本架構
數據倉庫的目的是構建面向分析的集成化數據環境,為企業提供決策支持(Decision Support)。其實數據倉庫本身并不“生產”任何數據,同時自身也不需要“消費”任何的數據,數據來源于外部,并且開放給外部應用,這也是為什么叫“倉庫”,而不叫“工廠”的原因。因此數據倉庫的基本架構主要包含的是數據流入流出的過程,可以分為三層——源數據、數據倉庫、數據應用:
從圖中可以看出數據倉庫的數據來源于不同的源數據,并提供多樣的數據應用,數據自上而下流入數據倉庫后向上層開放應用,而數據倉庫只是中間集成化數據管理的一個平臺。
數據倉庫的數據來源
數據倉庫從各數據源獲取數據及在數據倉庫內的數據轉換和流動都可以認為是ETL(抽取Extra, 轉化Transfer, 裝載Load)的過程,ETL是數據倉庫的流水線,也可以認為是數據倉庫的血液,它維系著數據倉庫中數據的新陳代謝,而數據倉庫日常的管理和維護工作的大部分精力就是保持ETL的正常和穩定。
數據倉庫的數據存儲
數據倉庫并不需要儲存所有的原始數據,同時數據倉庫需要儲存部分細節數據。簡單地解釋下:
a.為什么不需要所有原始數據?數據倉庫面向分析處理,但是某些源數據對于分析而言沒有價值或者其可能產生的價值遠低于儲存這些數據所需要的數據倉庫的實現和性能上的成本。比如我們知道用戶的省份、城市足夠,至于用戶究竟住哪里可能只是物流商關心的事,或者用戶在博客的評論內容可能只是文本挖掘會有需要,但將這些冗長的評論文本存在數據倉庫就得不償失;
b.為什么要存細節數據?細節數據是必需的,數據倉庫的分析需求會時刻變化,而有了細節數據就可以做到以不變應萬變。如果我們只存儲根據某些需求搭建起來的數據模型,那么顯然對于頻繁變動的需求會手足無措;
c.為什么要面向主題?面向主題是數據倉庫的第一特性,主要是指合理地組織數據以方面實現分析。對于源數據而言,其數據組織形式是多樣的,像點擊流的數據格式是未經優化的,前臺數據庫的數據是基于OLTP操作組織優化的,這些可能都不適合分析,而整理成面向主題的組織形式才是真正地利于分析的,比如將點擊流日志整理成頁面(Page)、訪問(Visit或Session)、用戶(Visitor)三個主題,這樣可以明顯提升分析的效率。
數據倉庫基于維護細節數據的基礎上在對數據進行處理,使其真正地能夠應用于分析。主要包括三個方面:
1.數據的聚合
這里的聚合數據指的是基于特定需求的簡單聚合(基于多維數據的聚合體現在多維數據模型中),簡單聚合可以是網站的總Pageviews、Visits、Unique Visitors等匯總數據,也可以是Avg. time on page、Avg. time on site等平均數據,這些數據可以直接地展示于報表上。
2.多維數據模型
多維數據模型提供了多角度多層次的分析應用,比如基于時間維、地域維等構建的銷售星形模型、雪花模型,可以實現在各時間維度和地域維度的交叉查詢,以及基于時間維和地域維的細分。所以多維數據模型的應用一般都是基于聯機分析處理(Online Analytical Process, OLAP)的,而面向特定需求群體的數據集市也會基于多維數據模型進行構建。
3.業務模型
這里的業務模型指的是基于某些數據分析和決策支持而建立起來的數據模型,比如用戶評價模型、關聯推薦模型、RFM分析模型等,或者是決策支持的線性規劃模型、庫存模型等;同時,數據挖掘中前期數據的處理也可以在這里完成。
數據倉庫的數據應用
報表展示
報表幾乎是每個數據倉庫的必不可少的一類數據應用,將聚合數據和多維分析數據展示到報表,提供了最為簡單和直觀的數據。
即時查詢
理論上數據倉庫的所有數據(包括細節數據、聚合數據、多維數據和分析數據)都應該開放即時查詢,即時查詢提供了足夠靈活的數據獲取方式,用戶可以根據自己的需要查詢獲取數據。
數據分析
數據分析大部分基于構建的業務模型展開,當然也可以使用聚合的數據進行趨勢分析、比較分析、相關分析等,而多維數據模型提供了多維分析的數據基礎;同時從細節數據中獲取一些樣本數據進行特定的分析也是較為常見的一種途徑。
數據挖掘
數據挖掘用一些高級的算法可以讓數據展現出各種令人驚訝的結果。數據挖掘可以基于數據倉庫中已經構建起來的業務模型展開,但大多數時候數據挖掘會直接從細節數據上入手,而數據倉庫為挖掘工具諸如SAS、SPSS等提供數據接口。
數據倉庫的開發流程:
第1天,通曉本質上進行操作型處理的幾個系統。
第2天,對數據倉庫中第一個主題領域的最初幾個表載入數據,此時就會產生一定的好奇心,用戶開始發現數據倉庫和分析處理。
第3天,更多的數據載入數據倉庫,并且隨著數據量增大,將吸引更多的用戶。一旦用戶發現有較容易載入的集成數據源,并有在時間維上觀察數據的歷史基礎,這就不僅僅是好奇心了。大約此時,認真的DSS分析員漸漸地被吸引到數據倉庫中。
第4天,隨著更多的數據載入數據倉庫,一批存儲在操作型環境的數據被適當地放入數據倉庫中。現在,我們就“發現”數據倉庫是可用來進行分析處理的信息源。各種各樣的DSS應用出現了。的確,伴隨著現在存入數據倉庫的大規模數據,此時開始出現如此多的用戶和如此多的處理請求,以致于一些用戶進入數據倉庫的要求和分析工作被推遲。進入數據倉庫的競爭成為使用數據倉庫的障礙。
第5天,部門數據庫(數據集市,或OLAP )開始興起,各部門發現通過把數據從數據倉庫輸入它們自己的部門處理環境,會使它們的處理既便宜又容易。到達部門級的數據吸引著一些D S S分析員。
第6天,部門系統出現繁忙,得到部門數據比獲得數據倉庫的數據更便宜、更快、更容易。很快最終用戶就放棄數據倉庫的細節,去進行部門處理。
第n天,這種體系結構得到充分發展。生產系統的原始集合中只剩下操作型處理。數據倉庫具有豐富的數據,并有一些數據倉庫的直接用戶和許多部門數據庫。因為在部門級上獲得處理所需要的數據既容易又便宜,所以大部分DSS分析處理都在部門級進行。
當然,從第1天到第n天的進化需要很長的時間,通常需要幾年。并且在從第1天到第n天的處理過程中,DSS環境在不斷地提高和職能化。
元數據管理
元數據(Meta Date),其實應該叫做解釋性數據,或者數據字典,即數據的數據。主要記錄數據倉庫中模型的定義、各層級間的映射關系、監控數據倉庫的數據狀態及ETL的任務運行狀態。一般會通過元數據資料庫(Metadata Repository)來統一地存儲和管理元數據,其主要目的是使數據倉庫的設計、部署、操作和管理能達成協同和一致。
以上是“數據倉庫基本架構是怎么樣的”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。