Spark Streaming的案例分析

發布時間：2021-12-16 15:25:27 來源：億速云閱讀：343 作者：iii 欄目：云計算

這篇文章主要講解了“Spark Streaming的案例分析”，文中的講解內容簡單清晰，易于學習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學習“Spark Streaming的案例分析”吧！

為什么從SparkStreaming入手？

因為SparkStreaming 是Spark Core上的一個子框架，如果我們能夠完全精通了一個子框架，我們就能夠更好的駕馭Spark。SparkStreaming和Spark SQL是目前最流行的框架，從研究角度而言，Spark SQL有太多涉及到SQL優化的問題，不太適應用來深入研究。而SparkStreaming和其他的框架不同，它更像是SparkCore的一個應用程序。如果我們能深入的了解SparkStreaming，那我們就可以寫出非常復雜的應用程序。

SparkStreaming的優勢是可以結合SparkSQL、圖計算、機器學習，功能更加強大。這個時代，單純的流計算已經無法滿足客戶的需求啦。在Spark中SparkStreaming也是最容易出現問題的，因為它是不斷的運行，內部比較復雜。

本課內容：

1，SparkStreaming另類在線實驗

這個另類在線實驗體現在batchInterval設置的很大，5分鐘甚至更大，為了更清晰的看清楚Streaming運行的各個環境。

實驗內容是使用SparkStreaming在線統計單詞個數，SparkStreaming連接一個端口中接收發送過來的單詞數據，將統計信息輸出到控制臺中，其中使用netcat創建一個簡單的server，來開啟并監聽一個端口，接收用戶鍵盤輸入的單詞數據。

2，瞬間理解SparkStreaming的本質

結合這個實驗并通過觀察Web UI上的Job，Stage，Task等信息，再結合SparkStreaming的源碼，對SparkStreaming進行分析。

實驗環境說明：

實驗由3臺Ubuntu14.04虛擬機上運行，其中一臺作為Spark的Master，另外兩臺作為Spark的Worker。使用的Spark版本為目前最先版1.6.1，Spark checkpoint的存儲在HDFS上(hadoop的版本為2.6.0)。為了記錄SparkStreaming運行的過程信息，需要啟動Spark的HistoryServer，以下是啟廳Spark，HDFS，HistoryServer服務的腳本。

Spark Streaming的案例分析