中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Spark如何安裝、配置及基礎使用

發布時間:2021-11-15 10:15:12 來源:億速云 閱讀:176 作者:小新 欄目:云計算

小編給大家分享一下Spark如何安裝、配置及基礎使用,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

7. Spark

此主題介紹Spark的安裝、配置及基礎使用。

Spark基本信息

官網:http://spark.apache.org/
官方教程:http://spark.apache.org/docs/latest/programming-guide.html

7.1. 環境準備

# 切換到工作空間
cd /opt/workspaces
# 創建Spark數據目錄
mkdir data/spark
# 創建Spark日志目錄
mkdir logs/spark

官方教程

http://spark.apache.org/docs/latest/spark-standalone.html

7.2. 安裝

wget http://mirrors.hust.edu.cn/apache/spark/spark-1.6.1/spark-1.6.1-bin-hadoop2.6.tgz
tar -zxf spark-1.6.1-bin-hadoop2.6.tgz
rm -rf spark-1.6.1-bin-hadoop2.6.tgz
mv spark-1.6.1-bin-hadoop2.6 ./frameworks/spark

7.3. 配置(偽分布式)

vi ./frameworks/spark/conf/spark-env.sh

export SPARK_MASTER_IP=bd
export SPARK_MASTER_PORT=7077
export MASTER=spark://${SPARK_MASTER_IP}:${SPARK_MASTER_PORT}
# 指定Spark數據目錄
export SPARK_LOCAL_DIRS=/opt/workspaces/data/spark/
# 指定Spark日志目錄
export SPARK_LOG_DIR=/opt/workspaces/logs/spark/
# 指定JDK目錄
export JAVA_HOME=/opt/env/java
# 指定Scala目錄
export SCALA_HOME=/opt/env/scala

7.4. 啟動與停止

./frameworks/spark/sbin/start-all.sh

7.5. 測試

# 執行圓周率計算示例
./frameworks/spark/bin/run-example  org.apache.spark.examples.SparkPi

./frameworks/spark/bin/spark-submit \
  --class org.apache.spark.examples.SparkPi \
  --master spark://bd:6066\
  --deploy-mode cluster \
  --driver-memory 512M \
  --executor-memory 256M \  #如果運行出錯請改大些
  ./frameworks/spark/lib/spark-examples-1.6.1-hadoop2.6.0.jar \
  1000

7.6. Word Count


http://spark.apache.org/docs/latest/quick-start.html

Word Count

./frameworks/spark/bin/spark-shell

// 基礎版
val textFile = sc.textFile("./frameworks/spark/README.md")
val words = textFile.flatMap(line => line.split(" "))
val exchangeVal = words.map(word => (word,1))
val count = exchangeVal.reduceByKey((a,b) => a + b)
count.collect

// 優化版
sc.textFile("./frameworks/spark/README.md").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect

// 帶排序
sc.textFile("./frameworks/spark/README.md").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).map(_.swap).sortByKey(false).map(_.swap).collect

// 最終版
val wordR="""\w+""".r
sc.textFile("./frameworks/spark/README.md").flatMap(_.split(" ")).filter(wordR.pattern.matcher(_).matches).map((_,1)).reduceByKey(_ + _).map(_.swap).sortByKey(false).map(_.swap).saveAsTextFile("hdfs://bd:9000/wordcount")

可以訪問 http://<host>:8080 查看作業

7.7. 參數說明

  • 在哪配置:

Spark properties (Spark屬性)在應用程序中通過SparkConf 對象設置,或通過Java系統屬性設置。
Environment variables (環境變量)指定各節點的設置,如IP地址、端口,配置文件在conf/spark-env.sh中。
Logging (日志)可以通過log4j.properties配置日志。

  • Spark properties

在代碼中指定配置

val conf = new SparkConf()
             // 指定使用2個本地線程來運行,本地模式下,我們可以使用n個線程(n >= 1),但在像Spark Streaming這樣的場景下,我們可能需要多個線程
             .setMaster("local[2]")
             .setAppName("CountingSheep")
val sc = new SparkContext(conf)

在腳本中指定配置

./bin/spark-submit --name "My app" --master local[4] --conf spark.eventLog.enabled=false
  --conf "spark.executor.extraJavaOptions=-XX:+PrintGCDetails -XX:+PrintGCTimeStamps" myApp.jar

Table 1. 常用配置

屬性名稱默認值說明

spark.app.name


Spark應用的名字

spark.driver.cores

1

在cluster模式下運行driver進程的核數

spark.driver.memory

1g

driver進程可以用的內存總量(如:1g,2g),client模式下無效果,必須要在命令行里用 –driver-memory 或者在默認屬性配置文件里設置

spark.executor.memory

1g

單個executor使用的內存總量(如,2g,8g)

spark.master


集群管理器URL

  • Environment variables

環境變量在${SPARK_HOME}/conf/spark-env.sh腳本中設置

Table 2. 常用配置

模式屬性名稱默認值說明

JAVA_HOME


Java安裝目錄


SCALA_HOME


Scala安裝目錄


SPARK_LOCAL_IP


本地綁定的IP


SPARK_LOG_DIR

${SPARK_HOME}/logs

日志目錄

standalone

SPARK_MASTER_IP

(當前IP)

Master IP

standalone

SPARK_MASTER_PORT

7077(6066)

Master 端口

standalone

MASTER


默認Master URL

standalone

SPARK_WORKER_CORES

所有

每個節點使用的CPU core上限

standalone

SPARK_WORKER_MEMORY

本節點所有內存減去1GB

每個節點使用的內存上限

standalone

SPARK_WORKER_INSTANCES

1

每個節點啟動的worker實例個數

standalone

SPARK_WORKER_PORT

隨機

Worker綁定的端口


如果你的slave節點性能非常強勁,可以把SPARK_WORKER_INSTANCES設為大于1;相應的,需要設置SPARK_WORKER_CORES參數限制每個worker實例使用的CPU個數,否則每個worker實例都會使用所有的CPU。
  • Logging

日志在${SPARK_HOME}/conf/log4j.properties中設置

  • Hadoop集群配置

使用HDFS時需要從Hadoop中復制hdfs-site.xml、 core-site.xml到Spark的classpath中


http://spark.apache.org/docs/latest/configuration.html

7.8. 資源調度

standalone目前只支持簡單的先進先出(FIFO)調度器。這個調度器可以支持多用戶,你可以控制每個應用所使用的最大資源。默認情況下,Spark應用會申請集群中所有的CPU。

在代碼中限制資源

val conf = new SparkConf()
             .setMaster(...)
             .setAppName(...)
             .set("spark.cores.max", "10")
val sc = new SparkContext(conf)

在配置文件     spark-env.sh中限制資源

export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=<value>"

7.9. 性能調優


http://spark.apache.org/docs/latest/tuning.html

7.10. 硬件配置

每個節點:
* 4-8塊磁盤
* 8G以上內存
* 千兆網卡
* 8-16核CPU

至少3個節點


http://spark.apache.org/docs/latest/hardware-provisioning.html

7.11. 整合Hive

  • spark-env.sh中添加配置項

    # Hive目錄
    export HIVE_HOME=$HIVE_HOME

         


SPARK_CLASSPATH

有些教程中說要添加
export SPARK_CLASSPATH=$HIVE_HOME/lib/mysql-connector-java-x.jar:$SPARK_CLASSPATH
但目前版本不需要此配置,并且添加上去會導致zeppelin運行出錯:
org.apache.spark.SparkException: Found both spark.driver.extraClassPath and SPARK_CLASSPATH. Use only the former.

  • 復制Hive的幾個配置文件

    cp ./frameworks/hive/conf/hive-site.xml ./frameworks/spark/conf
    cp ./frameworks/hive/conf/hive-log4j.properties ./frameworks/spark/conf

         

  • 啟動thriftserver,用于對外提供JDBC服務

    ./frameworks/spark/sbin/start-thriftserver.sh

         

  • 測試連接

    ./frameworks/spark/bin/beeline
    !connect jdbc:hive2://bd:10000
    show tables;

以上是“Spark如何安裝、配置及基礎使用”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

青阳县| 锡林郭勒盟| 宁津县| 云林县| 甘肃省| 霸州市| 伽师县| 龙泉市| 柯坪县| 清流县| 县级市| 根河市| 江门市| 南皮县| 平阳县| 蓬安县| 岚皋县| 宁晋县| 乌审旗| 迁安市| 绥化市| 竹溪县| 宜城市| 禹州市| 宁南县| 望城县| 郑州市| 临澧县| 常熟市| 大化| 三穗县| 水城县| 六盘水市| 进贤县| 吉木乃县| 宽甸| 卫辉市| 察哈| 林州市| 乌鲁木齐市| 广平县|