中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Apache Spark局限性有哪些

發布時間:2021-12-17 14:07:45 來源:億速云 閱讀:157 作者:柒染 欄目:大數據

這篇文章給大家介紹Apache Spark局限性有哪些,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。

Apache Spark是行業中流行和廣泛使用的大數據工具之一。Apache Spark已成為業界的熱門話題,并且如今非常流行。但工業正在轉移朝向apache flink。

Apache Spark簡介

Apache Spark是為快速計算而設計的開源,閃電般快速的集群計算框架。Apache Spark擴展了MapReduce模型,以有效地將其用于多種計算,包括流處理和交互式查詢。Apache Spark的主要功能是內存中的群集計算,可以提高應用程序的處理速度。

Spark計劃用于涵蓋各種工作負載,例如迭代算法,批處理應用程序,流和交互式查詢。除了支持這些工作負載,它還減少了維護不同工具的管理障礙。

Apache Spark框架的核心組件

Apache Spark框架由負責Spark功能的主要五個組件組成。這些組成部分是–

Spark SQL和數據框架–在頂部,Spark SQL允許用戶運行SQL和HQL查詢以處理結構化和半結構化數據。

SparkStreaming – Spark流傳輸有助于處理實時流數據,即日志文件。它還包含用于處理數據流的API

MLib機器學習– MLib是具有機器學習功能的Spark庫。它包含各種機器學習算法,例如回歸,聚類,協作過濾,分類等。

GraphX –支持圖形計算的庫稱為GraphX。它使用戶能夠執行圖操作。它還提供了圖形計算算法。

Apache Spark Core API –它是Spark框架的內核,并提供了一個執行Spark應用程序的平臺。

下圖清楚地顯示了Apache Spark的核心組件。

Apache Spark局限性有哪些

Apache Spark的局限性

用戶在使用它時必須面對Apache Spark的一些限制。本文完全側重于Apache Spark的限制以及克服這些限制的方法。讓我們詳細閱讀Apache Spark的以下限制以及克服這些Apache Spark限制的方法。

1.沒有文件管理系統

Apache Spark中沒有文件管理系統,需要與其他平臺集成。因此,它依賴于Hadoop等其他平臺或任何其他基于云的文件管理系統平臺。這是Apache Spark的主要限制之一。

2.不進行實時數據處理

Spark不完全支持實時數據流處理。在Spark流中,實時數據流被分為幾批,稱為Spark RDD(彈性分布式數據庫)。在這些RDD上應用諸如join,map或reduce等操作來處理它們。處理后,結果再次轉換為批次。這樣,Spark流只是一個微批處理。因此,它不支持完整的實時處理,但是有點接近它。

3.昂貴

在談論大數據的經濟高效處理時,將數據保存在內存中并不容易。使用Spark時,內存消耗非常高。Spark需要巨大的RAM來處理內存。Spark中的內存消耗非常高,因此用戶友好性并不高。運行Spark所需的額外內存成本很高,這使Spark變得昂貴。

4.小文件發行

當我們將Spark與Hadoop一起使用時,存在文件較小的問題。HDFS附帶了數量有限的大文件,但有大量的小文件。如果我們將Spark與HDFS一起使用,則此問題將持續存在。但是使用Spark時,所有數據都以zip文件的形式存儲在S3中。現在的問題是所有這些小的zip文件都需要解壓縮才能收集數據文件。

僅當一個核心中包含完整文件時,才可以壓縮zip文件。僅按順序刻錄核心和解壓縮文件需要大量時間。此耗時的長過程也影響數據處理。為了進行有效處理,需要對數據進行大量改組。

5.延遲

Apache Spark的等待時間較長,這導致較低的吞吐量。與Apache Spark相比,Apache Flink的延遲相對較低,但吞吐量較高,這使其比Apache Spark更好。

6.較少的算法

在Apache Spark框架中,MLib是包含機器學習算法的Spark庫。但是,Spark MLib中只有少數幾種算法。因此,較少可用的算法也是Apache Spark的限制之一。

7.迭代處理

迭代基本上意味著重復使用過渡結果。在Spark中,數據是分批迭代的,然后為了處理數據,每次迭代都被調度并一個接一個地執行。

8.窗口標準

在Spark流傳輸中,根據預設的時間間隔將數據分為小批。因此,Apache Spark支持基于時間的窗口條件,但不支持基于記錄的窗口條件。

9.處理背壓

背壓是指緩沖區太滿而無法接收任何數據時,輸入/輸出開關上的數據累積。緩沖區為空之前,無法傳輸數據。因此,Apache Spark沒有能力處理這種背壓,但必須手動完成。

10.手動優化

使用Spark時,需要手動優化作業以及數據集。要創建分區,用戶可以自行指定Spark分區的數量。為此,需要傳遞要固定的分區數作為并行化方法的參數。為了獲得正確的分區和緩存,應該手動控制所有此分區過程。

盡管有這些限制,但Apache Spark仍然是流行的大數據工具之一。但是,現在已經有許多技術取代了Spark。Apache Flink是其中之一。Apache Flink支持實時數據流。因此,Flink流比Apache Spark流更好。

關于Apache Spark局限性有哪些就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

南丰县| 板桥市| 平昌县| 驻马店市| 黔西县| 宝坻区| 阿拉尔市| 南部县| 新泰市| 阿合奇县| 澄江县| 贵溪市| 略阳县| 右玉县| 广元市| 平凉市| 香河县| 上杭县| 永丰县| 瓮安县| 故城县| 依兰县| 大城县| 巩留县| 吕梁市| 唐山市| 拜泉县| 镇赉县| 西华县| 邹平县| 赣榆县| 杭州市| 阿拉善左旗| 讷河市| 平利县| 红安县| 慈溪市| 定西市| 铜陵市| 刚察县| 山阴县|