您好,登錄后才能下訂單哦!
本篇文章為大家展示了Spark指的是什么,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
Spark是UC Berkeley AMP lab所開源的類HadoopMapReduce的通用的并行計算框架,Spark基于map reduce算法實現的分布式計算,擁有Hadoop MapReduce所具有的優點;但不同于MapReduce的是Job中間輸出和結果可以保存在內存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數據挖掘與機器學習等需要迭代的map reduce的算法。
一、什么是 Spark
Spark 是基于內存計算大數據分析引擎,提高了在大數據環境下數據處理的實時性。Spark 僅僅只涉及到數據的計算,沒有涉及到數據的存儲。
二、Spark HA 高可用部署
*Spark HA 解決 Master 單點故障的兩種方案:
1.基于文件系統的單點恢復(主要用于開發或測試環境)
2.基于 zookeeper 的 Standby Masters(用于生產模式)
*基于 zookeeper 的 Spark HA 高可用集群部署
(1)im spark-env.sh
注釋掉 export SPARK_MASTER_HOST=hdp-node-01
(2)在 spark-env.sh 添加 SPARK_DAEMON_JAVA_OPTS,內容如下:
spark.deploy.recoveryMode:
恢復模式(Master 重新啟動的模式)有三種:
(1)ZooKeeper
(2) FileSystem
(3)NONE
spark.deploy.zookeeper.url:ZooKeeper 的 Server 地址
spark.deploy.zookeeper.dir:保存集群元數據信息的文件、目錄。包括 Worker,Driver 和 Application。
注意:
在普通模式下啟動 spark 集群,只需要在主機上面執行 start-all.sh 就可以了。在高可用模式下啟動 spark 集群,先需要在任意一臺節點上啟動 start-all.sh命令。然后在另外一臺節點上單獨啟動 master。命令 start-master.sh。
三、Spark-Shell
讀取本地文件
1.運行 spark-shell --master local[N](N 表線程數)
2.編寫 scala 代碼
sc.textFile("file:///root///words.txt")
.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect
讀取 HDFS 上數據
1.整合 spark 和 HDFS,修改配置文件 spark-env.sh
export HADOOP_CONF_DIR=/opt/bigdata/hadoop-2.6.4/etc/hadoop
2.啟動 hdfs,然后重啟 spark 集群
3.向 hdfs 上傳個文件
4.在 spark shell 中用 scala 語言編寫 spark 程序指定具體的 master 地址
1.執行啟動命令:
spark-shell \
--master spark://hdp-node-01:7077 \
--executor-memory 1g \
--total-executor-cores 2
若沒指定 master 地址則默認本地模式
上述內容就是Spark指的是什么,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。