Spark指的是什么

發布時間：2021-12-17 14:16:41 來源：億速云閱讀：125 作者：柒染欄目：編程語言

本篇文章為大家展示了Spark指的是什么，內容簡明扼要并且容易理解，絕對能使你眼前一亮，通過這篇文章的詳細介紹希望你能有所收獲。

Spark是UC Berkeley AMP lab所開源的類HadoopMapReduce的通用的并行計算框架，Spark基于map reduce算法實現的分布式計算，擁有Hadoop MapReduce所具有的優點；但不同于MapReduce的是Job中間輸出和結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的map reduce的算法。

一、什么是 Spark

Spark 是基于內存計算大數據分析引擎，提高了在大數據環境下數據處理的實時性。Spark 僅僅只涉及到數據的計算，沒有涉及到數據的存儲。

二、Spark HA 高可用部署

*Spark HA 解決 Master 單點故障的兩種方案：

1.基于文件系統的單點恢復(主要用于開發或測試環境)

2.基于 zookeeper 的 Standby Masters(用于生產模式)

*基于 zookeeper 的 Spark HA 高可用集群部署

(1)im spark-env.sh

注釋掉 export SPARK_MASTER_HOST=hdp-node-01

(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS，內容如下：

spark.deploy.recoveryMode：

恢復模式（Master 重新啟動的模式）有三種：

(1)ZooKeeper

(2) FileSystem

(3)NONE

spark.deploy.zookeeper.url：ZooKeeper 的 Server 地址

spark.deploy.zookeeper.dir：保存集群元數據信息的文件、目錄。包括 Worker，Driver 和 Application。

注意：

在普通模式下啟動 spark 集群，只需要在主機上面執行 start-all.sh 就可以了。在高可用模式下啟動 spark 集群，先需要在任意一臺節點上啟動 start-all.sh命令。然后在另外一臺節點上單獨啟動 master。命令 start-master.sh。

三、Spark-Shell

讀取本地文件

1.運行 spark-shell --master local[N](N 表線程數)

2.編寫 scala 代碼

sc.textFile("file：///root///words.txt")

.flatMap(_.split(" ")).map((_，1)).reduceByKey(_+_).collect

讀取 HDFS 上數據

1.整合 spark 和 HDFS，修改配置文件 spark-env.sh

export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop

2.啟動 hdfs，然后重啟 spark 集群

3.向 hdfs 上傳個文件

4.在 spark shell 中用 scala 語言編寫 spark 程序指定具體的 master 地址

1.執行啟動命令：

spark-shell \

--master spark：//hdp-node-01：7077 \

--executor-memory 1g \

--total-executor-cores 2

若沒指定 master 地址則默認本地模式

上述內容就是Spark指的是什么，你們學到知識或技能了嗎？如果還想學到更多技能或者豐富自己的知識儲備，歡迎關注億速云行業資訊頻道。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Spark指的是什么

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

Spark指的是什么

猜你喜歡

最新資訊

相關推薦

相關標簽