中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數據工具pyspark怎么用

發布時間:2021-12-17 09:39:03 來源:億速云 閱讀:188 作者:柒染 欄目:大數據

本篇文章給大家分享的是有關大數據工具pyspark怎么用,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

spark是目前大數據領域的核心技術棧,許多從事數據相關工作的小伙伴都想馴服它,變成"馴龍高手",以便能夠駕馭成百上千臺機器組成的集群之龍來馳騁于大數據之海。

但大部分小伙伴都沒能成功做到這一點。有一部分小伙伴糾結在到底是學pyspark還是spark-scala上面遲遲未能出征,還有相當一部分倒在了開始的環境配置上,還有一些在幾十幾百個函數的用法中迷失了方向,還有少部分同學雖然掌握了一些簡單用法,但是沒有掌握性能優化技巧,一旦遇到真正復雜的大數據就毫無辦法。

一,pyspark or spark-scala 

pyspark強于分析,spark-scala強于工程。

如果應用場景有非常高的性能需求,應該選擇spark-scala.

如果應用場景有非常多的可視化和機器學習算法需求,推薦使用pyspark,可以更好地和python中的相關庫配合使用。

此外spark-scala支持spark graphx圖計算模塊,而pyspark是不支持的。

pyspark學習曲線平緩,spark-scala學習曲線陡峭。

從學習成本來說,spark-scala學習曲線陡峭,不僅因為scala是一門困難的語言,更加因為在前方的道路上會有無盡的環境配置痛苦等待著讀者。

而pyspark學習成本相對較低,環境配置相對容易。從學習成本來說,如果說pyspark的學習成本是3,那么spark-scala的學習成本大概是9。

如果讀者有較強的學習能力和充分的學習時間,建議選擇spark-scala,能夠解鎖spark的全部技能,并獲得最優性能,這也是工業界最普遍使用spark的方式。

如果讀者學習時間有限,并對Python情有獨鐘,建議選擇pyspark。pyspark在工業界的使用目前也越來越普遍。

 

二,本書學習方案 

1,學習計劃

非常適合作為pyspark的工具手冊在工程落地時作為范例庫參考。

2,學習環境

全部源碼在jupyter中編寫測試通過,建議通過git克隆到本地,并在jupyter中交互式運行學習。

為了直接能夠在jupyter中打開markdown文件,建議安裝jupytext,將markdown轉換成ipynb文件。

按照如下2個步驟配置單機版spark3.0.1環境進行練習。

#step1: 安裝java8#jdk
#step2: 安裝pyspark,findsparkpip install -i

此外,也可以在和鯨社區的云端notebook中直接運行pyspark,沒有任何環境配置痛苦。

import findspark

#指定spark_home,指定python路徑
spark_home = "/Users/liangyun/anaconda3/lib/python3.7/site-packages/pyspark"
python_path = "/Users/liangyun/anaconda3/bin/python"
findspark.init(spark_home,python_path)

import pyspark 
from pyspark import SparkContext, SparkConf
conf = SparkConf().setAppName("test").setMaster("local[4]")
sc = SparkContext(conf=conf)

print("spark version:",pyspark.__version__)
rdd = sc.parallelize(["hello","spark"])
print(rdd.reduce(lambda x,y:x+' '+y))

以上就是大數據工具pyspark怎么用,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

黔江区| 咸丰县| 涞源县| 绵阳市| 秀山| 来宾市| 江西省| 建昌县| 泽州县| 长武县| 峡江县| 喀喇沁旗| 西昌市| 东辽县| 丹寨县| 晋城| 南乐县| 府谷县| 视频| 泗洪县| 左贡县| 临西县| 禹州市| 南靖县| 新密市| 修武县| 天峨县| 临武县| 汕头市| 隆回县| 邳州市| 嘉兴市| 榆林市| 贞丰县| 福建省| 河北区| 桃江县| 新闻| 武冈市| 乐东| 沭阳县|