什么是Spark RDD

發布時間：2021-12-16 20:25:52 來源：億速云閱讀：135 作者：柒染欄目：大數據

這篇文章將為大家詳細講解有關什么是Spark RDD，文章內容質量較高，因此小編分享給大家做個參考，希望大家閱讀完這篇文章后對相關知識有一定的了解。

RDD 字面上就是彈性分布式數據集（Resiliennt Distributed Datasets），它是一種抽象的概念，擁有容錯、只讀、分布式以及基于內存的特性。這里的彈性是什么意思呢？首先，Spark會自動地在內存不足情況下，將數據‘溢出’到磁盤里，使用 persist 和 cache 方法可以將任意RDD緩存到內存或寫入磁盤，程序可自動根據數據情況進行切換；其次就是當某個RDD失效，通過Lineage 依賴鏈重新計算上有RDD即可找回數據；最后就是失敗任務的重試機制，僅對失敗的RDD進行特定次數的重試（默認好像4次，這個可以通過spark.stage.maxConsecutiveAttempts和spark.task.maxFailures兩個參數調節，一個是針對stage級別的容錯，一個是task級別）

明白了RDD的基本概念，如何創建一個RDD呢？剛開始學習的時候可以使用HDFS文件創建，簡化代碼如下：

SparkConf cf = new SparkConf().setAppName("HDFSFileTest");

JavaSparkContext jsc = new JavaSparkContext(cf);

JavaRDD<String> lines = jsc.textFile("hdfs://sparkT:9000/spark.txt");

RDD的操作分為轉換和行動兩個部分，Transformation只是RDD之間的轉換過程，不進行實際計算：

比如lines里面讀出來的是{1，2，3}，進行map（）轉換操作：lines.

map(x=>x+l) ,輸出結果就是{2，3，4}

只有Action才產生實際的計算：

lines.count()統計RDD里返回結果：4

RDD之間還存在寬窄依賴，也是一個比較重要的概念，窄依賴是指父 RDD 的每個分區都只被子 RDD 的一個分區所使用，如 map、flatMap、 union、filter、distinct、subtract、sample等；寬依賴是指父 RDD 的每個分區都被多個子 RDD 的分區所依賴，如groupByKey、reduceByKey、join等。

關于什么是Spark RDD就分享到這里了，希望以上內容可以對大家有一定的幫助，可以學到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

什么是Spark RDD

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

什么是Spark RDD

猜你喜歡

最新資訊

相關推薦

相關標簽