中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數據分析平臺系統開發思路及步驟是什么

發布時間:2021-12-28 15:02:54 來源:億速云 閱讀:239 作者:柒染 欄目:大數據

這篇文章給大家介紹大數據分析平臺系統開發思路及步驟是什么,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。

1、搭建大數據平臺離不開BI。在大數據之前,BI就已經存在很久了,簡單把大數據等同于BI,明顯是不恰當的。但兩者又是緊密關聯的,相輔相成的。BI是達成業務管理的應用工具,沒有BI,大數據就沒有了價值轉化的工具,就無法把數據的價值呈現給用戶,也就無法有效地支撐企業經營管理決策;大數據則是基礎,沒有大數據,BI就失去了存在的基礎,沒有辦法快速、實時、高效地處理數據,支撐應用。 所以,數據的價值發揮,大數據平臺的建設,必然是囊括了大數據處理與BI應用分析建設的。

2、大數據擁有價值。來看看數據使用金字塔模型,從數據的使用角度來看,數據基本有以下使用方式:

大數據分析平臺系統開發思路及步驟是什么

自上而下,可以看到,對數據的要求是不一樣的:

  • 數據量越來越大,維度越來越多。

  • 交互難度越來越大。

  • 技術難度越來越大。

  • 以人為主,逐步向機器為主。

  • 用戶專業程度逐步提升,門檻越來越高。



企業對數據、效率要求的逐步提高,也給大數據提供了展現能力的平臺。企業構建大數據平臺,歸根到底是構建企業的數據資產運營中心,發揮數據的價值,支撐企業的發展。

整體方案思路如下:

建設企業的基礎數據中心,構建企業統一的數據存儲體系,統一進行數據建模,為數據的價值呈現奠定基礎。同時數據處理能力下沉,建設集中的數據處理中心,提供強大的數據處理能力;通過統一的數據管理監控體系,保障系統的穩定運行。有了數據基礎,構建統一的BI應用中心,滿足業務需求,體現數據價值。

提到大數據就會提到hadoop。大數據并不等同于hadoop,但hadoop的確是最熱門的大數據技術。下面以最常用的混搭架構,來看一下大數據平臺可以怎么通過Kafka作為統一采集平臺的消息管理層,靈活的對接、適配各種數據源采集(如集成flume),提供靈活、可配置的數據采集能力。利用spark和hadoop技術,構建大數據平臺最為核心的基礎數據的存儲、處理能力中心,提供強大的數據處理能力,滿足數據的交互需求。同時通過spark streaming,可以有效滿足企業實時數據的要求,構建企業發展的實時指標體系。

同時為了更好的滿足的數據獲取需求,通過RDBMS,提供企業高度匯總的統計數據,滿足企業常規的統計報表需求,降低使用門檻。對大數據明細查詢需求,則通過構建HBase集群,提供大數據快速查詢能力,滿足對大數據的查詢獲取需求。

大數據分析平臺系統開發思路及步驟是什么

一般的大數據平臺從平臺搭建到數據分析大概包括以下幾個步驟:

1、Linux系統安裝

一般使用開源版的Redhat系統--CentOS作為底層平臺。為了提供穩定的硬件基礎,在給硬盤做RAID和掛載數據存儲節點的時,需要按情況配置。比如,可以選擇給HDFS的namenode做RAID2以提高其穩定性,將數據存儲與操作系統分別放置在不同硬盤上,以確保操作系統的正常運行。

2、分布式計算平臺/組件安裝

當前分布式系統的大多使用的是Hadoop系列開源系統。Hadoop的核心是HDFS,一個分布式的文件系統。在其基礎上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。

使用開源組件的優點:1)使用者眾多,很多bug可以在網上找的答案(這往往是開發中最耗時的地方);2)開源組件一般免費,學習和維護相對方便;3)開源組件一般會持續更新;4)因為代碼開源,如果出現bug可自由對源碼作修改維護。

常用的分布式數據數據倉庫有Hive、Hbase。Hive可以用SQL查詢,Hbase可以快速讀取行。外部數據庫導入導出需要用到Sqoop。Sqoop將數據從Oracle、MySQL等傳統數據庫導入Hive或Hbase。Zookeeper是提供數據同步服務, Impala是對hive的一個補充,可以實現高效的SQL查詢

3、數據導入

前面提到,數據導入的工具是Sqoop。它可以將數據從文件或者傳統數據庫導入到分布式平臺。

4、數據分析

數據分析一般包括兩個階段:數據預處理和數據建模分析。

數據預處理是為后面的建模分析做準備,主要工作時從海量數據中提取可用特征,建立大寬表。這個過程可能會用到Hive SQL,Spark QL和Impala。

數據建模分析是針對預處理提取的特征/數據建模,得到想要的結果。如前面所提到的,這一塊最好用的是Spark。常用的機器學習算法,如樸素貝葉斯、邏輯回歸、決策樹、神經網絡、TFIDF、協同過濾等,都已經在ML lib里面,調用比較方便。

5、結果可視化及輸出API

可視化一般式對結果或部分原始數據做展示。一般有兩種情況,行數據展示,和列查找展示。

關于大數據分析平臺系統開發思路及步驟是什么就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

永州市| 辽宁省| 昌黎县| 搜索| 南丰县| 林周县| 合阳县| 泽州县| 土默特左旗| 阿荣旗| 黄陵县| 安溪县| 中宁县| 普安县| 泰安市| 鄂温| 荥阳市| 肃北| 太仆寺旗| 浦北县| 邯郸县| 扶绥县| 罗江县| 巫山县| 德令哈市| 平原县| 伊川县| 清新县| 瑞丽市| 滦南县| 江都市| 缙云县| 余干县| 宜良县| 新乡市| 肥西县| 博罗县| 启东市| 潞城市| 安龙县| 天台县|