您好,登錄后才能下訂單哦!
小編給大家分享一下spark中四大組件分別是什么,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!
spark四大組件分別為:1、SparkStreaming,針對實時數據進行流式計算的組件;2、SparkSQL,用來操作結構化數據的組件;3、GraphX,Spark面向圖計算提供的框架與算法庫;4、MLlib,一個機器學習算法庫。
spark四大組件
1、SparkStreaming:
眾多應用領域對實時數據的流式計算有著強烈的需求,例如網絡環境中的網頁服務器日志或是由用戶提交的狀態更新組成的消息隊列等,這些都是實時數據流。Spark Streaming是Spark平臺上針對實時數據進行流式計算的組件,提供了豐富的處理數據流的API。由于這些API與Spark Core中的基本操作相對應,因此開發者在熟知Spark核心概念與編程方法之后,編寫Spark Streaming應用程序會更加得心應手。從底層設計來看,Spark Streaming支持與Spark Core同級別的容錯性、吞吐量以及可伸縮性。
2、SparkSQL:
Spark SQL是Spark用來操作結構化數據的組件。通過Spark SQL,用戶可以使用SQL或者Apache Hive版本的SQL方言(HQL)來查詢數據。Spark SQL支持多種數據源類型,例如Hive表、Parquet以及JSON等。Spark SQL不僅為Spark提供了一個SQL接口,還支持開發者將SQL語句融入到Spark應用程序開發過程中,無論是使用Python、Java還是Scala,用戶可以在單個的應用中同時進行SQL查詢和復雜的數據分析。由于能夠與Spark所提供的豐富的計算環境緊密結合,Spark SQL得以從其他開源數據倉庫工具中脫穎而出。Spark SQL在Spark l.0中被首次引入。在Spark SQL之前,美國加州大學伯克利分校曾經嘗試修改Apache Hive以使其運行在Spark上,進而提出了組件Shark。然而隨著Spark SQL的提出與發展,其與Spark引擎和API結合得更加緊密,使得Shark已經被Spark SQL所取代。
3、GraphX:
GraphX是Spark面向圖計算提供的框架與算法庫。GraphX中提出了彈性分布式屬性圖的概念,并在此基礎上實現了圖視圖與表視圖的有機結合與統一;同時針對圖數據處理提供了豐富的操作,例如取子圖操作subgraph、頂點屬性操作mapVertices、邊屬性操作mapEdges等。GraphX還實現了與Pregel的結合,可以直接使用一些常用圖算法,如PageRank、三角形計數等。
4、MLlib:
MLlib是Spark提供的一個機器學習算法庫,其中包含了多種經典、常見的機器學習算法,主要有分類、回歸、聚類、協同過濾等。MLlib不僅提供了模型評估、數據導入等額外的功能,還提供了一些更底層的機器學習原語,包括一個通用的梯度下降優化基礎算法。所有這些方法都被設計為可以在集群上輕松伸縮的架構。
以上是“spark中四大組件分別是什么”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。