您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關windows eclipse如何搭建spark開發環境,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
1、Java下Spark開發環境搭建
1.1、jdk安裝
安裝oracle下的jdk,我安裝的是jdk 1.7,安裝完新建系統環境變量JAVA_HOME,變量值為“C:\Program Files\Java\jdk1.7.0_79”,視自己安裝路勁而定。
同時在系統變量Path下添加C:\Program Files\Java\jdk1.7.0_79\bin和C:\Program Files\Java\jre7\bin。
1.2 spark環境變量配置
去http://spark.apache.org/downloads.html網站下載相應hadoop對應的版本,我下載的是spark-1.6.0-bin-hadoop2.6.tgz,spark版本是1.6,對應的hadoop版本是2.6
解壓下載的文件,假設解壓 目錄為:D:\spark-1.6.0-bin-hadoop2.6。將D:\spark-1.6.0-bin-hadoop2.6\bin添加到系統Path變量,同時新建SPARK_HOME變量,變量值為:D:\spark-1.6.0-bin-hadoop2.6
1.3 hadoop工具包安裝
spark是基于hadoop之上的,運行過程中會調用相關hadoop庫,如果沒配置相關hadoop運行環境,會提示相關出錯信息,雖然也不影響運行,但是這里還是把hadoop相關庫也配置好吧。
1.3.1 去下載hadoop 2.6,我下載的是hadoop-2.6.0.tar.gz,
1.3.2 解壓下載的文件夾,將相關庫添加到系統Path變量中:D:\hadoop-2.6.0\bin;同時新建HADOOP_HOME變量,變量值為:D:\hadoop-2.6.0,下載winutils的windows版本,將winutils.exe加入你的hadoop-x.x.x/bin下,把hadoop.dll放入從C:/wondwos/system32下面。
1.4 eclipse環境
直接新建java工程,將D:\spark-1.6.0-bin-hadoop2.6\lib下的spark-assembly-1.6.0-hadoop2.6.0.jar添加到工程中就可以了。
2、Python下Spark開發環境搭建
2.1 安裝python,并添加到系統變量path中:C:\Python27和C:\Python27\Scripts
2.2 重復1.2和1.3步驟
2.3 將spark目錄下的pyspark文件夾(D:\spark-1.6.0-bin-hadoop2.6\python\pyspark)復制到python安裝目錄C:\Python27\Lib\site-packages里
2.4 在cmd命令行下運行pip install py4j(首先得安裝了pip)安裝相關庫。
注意:我們在配置好環境變量后,在eclipse里進行編程,拿python為例,會報錯:
File "test.py", line 10, in <module> conf=(SparkConf().setMaster('local').setAppName('a').setSparkHome('/home/dirk/spark-1.4.1-bin-hadoop2.6/bin')) File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/conf.py", line 104, in __init__ SparkContext._ensure_initialized() File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/context.py", line 229, in _ensure_initialized SparkContext._gateway = gateway or launch_gateway() File "/home/dirk/spark-1.4.1-bin-hadoop2.6/python/pyspark/java_gateway.py", line 48, in launch_gateway SPARK_HOME = os.environ["SPARK_HOME"] File "/usr/lib/python2.7/UserDict.py", line 23, in __getitem__ raise KeyError(key) KeyError: 'SPARK_HOME'
這是因為eclipse并沒有獲取到配置的環境變量,我們可以通過
print os.getenv('SPARK_HOME')
檢驗,這時候我們重啟電腦就可以了;如果不想重啟電腦,我們可以通過
os.environ ['SPARK_HOME'] ='/home/dirk/spark-1.4.1-bin-hadoop2.6'
手動設置SPARK_HOME,這樣我們的程序就可以正常運行了。
關于“windows eclipse如何搭建spark開發環境”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。