如何使用spark-sql-perf

發布時間：2021-11-10 17:28:18 來源：億速云閱讀：334 作者：柒染欄目：云計算

如何使用spark-sql-perf，針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

基礎環境的安裝

刀片機：1臺 126G內存 64核心 centos 7.2

virtualbox安裝四臺虛擬機（centos 7.2，16G內存，4核）：master,worker1,worker2,worker3（centos下）

spark版本：2.0

hadoop版本：2.6

安裝請參考：hadoop安裝或者Spark On Yarn安裝

安裝后的截圖

如何使用spark-sql-perf

davies/tpcds-kit 下載、編譯、部署

簡介

davies/tpcds-kit是用來生成測試數據的工具

下載

git clone https://github.com/davies/tpcds-kit.git

編譯

任選一臺機器（這里我們選擇master）安裝以下編譯工具（默認軟件里沒有編譯工具）

yum   install gcc gcc-c++ bison flex cmake ncurses-devel
cd    tpcds-kit/tools
cp    Makefile.suite Makefile #復制Makefile.suite為Makefile
make             #運行make命令

接下來，拷貝tpcds-kit到所有機器的相同目錄下（重要）

scp  -r /目錄/tpcds-kit root@worker1:/目錄/tpcds-kit  #執行三次該命令復制到worker1,worker2,worker3

databricks/spark-sql-perf 下載、打包

下載

git clone https://github.com/databricks/spark-sql-perf.git

打包

使用sbt package打包的jar在使用時會出現依賴找不到情況，我們使用Intellij Idea導入該工程

修改sbt.build，更改scala版本為2.11.8 如何使用spark-sql-perf

打包成jar包

設置Project Structure

如何使用spark-sql-perf

設置Artifacts

如何使用spark-sql-perf

Build

如何使用spark-sql-perf

jar包不需要每個節點都有

運行TPCDS測試

更改spark.env中的driver內存限制

SPARK_DRIVER_MEMORY=8G #依具體情況而定

運行spark-shell

cd   spark-2.0.0-bin-hadoop2.6
./bin/spark-shell --jars /jar包目錄/spark-sql-perf.jar --num-executors 20 --executor-cores 2 --executor-memory 8G --master spark://master:7077

在spark-shell中運行測試

 // 創建sqlContext
val sqlContext=new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._
// 生成數據 參數1：sqlContext  參數2：tpcds-kit目錄  參數3：生成的數據量（GB）
val tables=new Tables(sqlCotext,"/目錄/tpcds-kit/tools",1)
tables.genData("hdfs://master:8020:tpctest","parquet",true,false,false,false,false);
// 創建表結構（外部表或者臨時表）
// talbles.createExternalTables("hdfs://master:8020:tpctest","parquet","mytest",false)
talbles.createTemporaryTables("hdfs://master:8020:tpctest","parquet")
import com.databricks.spark.sql.perf.tpcds.TPCDS
val tpcds=new TPCDS(sqlContext=sqlContext)
//運行測試
val experiment=tpcds.runExperiment(tpcds.tpcds1_4Queries)

在spark-shell中我們可以調用 _experiment.html_查看執行狀態

HDFS上生成的數據截圖

如何使用spark-sql-perf

運行截圖

如何使用spark-sql-perf

運行結果保存在spark/performance目錄下

HDFS上的評測結果截圖

如何使用spark-sql-perf

關于如何使用spark-sql-perf問題的解答就分享到這里了，希望以上內容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

如何使用spark-sql-perf

基礎環境的安裝

davies/tpcds-kit 下載、編譯、部署

簡介

下載

編譯

databricks/spark-sql-perf 下載、打包

下載

打包

運行TPCDS測試

更改spark.env中的driver內存限制

運行spark-shell

在spark-shell中運行測試

猜你喜歡

中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

如何使用spark-sql-perf

基礎環境的安裝

davies/tpcds-kit 下載、編譯、部署

簡介

下載

編譯

databricks/spark-sql-perf 下載、打包

下載

打包

運行TPCDS測試

更改spark.env中的driver內存限制

運行spark-shell

在spark-shell中運行測試

猜你喜歡

最新資訊

相關推薦

相關標簽