中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Spark shell 詞頻統計和統計PV的心得是什么

發布時間:2021-12-17 14:17:36 來源:億速云 閱讀:186 作者:柒染 欄目:大數據

這期內容當中小編將會給大家帶來有關Spark shell 詞頻統計和統計PV的心得是什么,文章內容豐富且以專業的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

所有過程按本人實驗并以本人能夠接受的方式理解的。

樣本數據

[hadoop@h301 ~]$ cat hh.txt

hello,world

hello,hadoop

hello,oracle

hadoop,oracle

hello,world

hello,hadoop

hello,oracle

hadoop,oracle

詞頻統計,及其按單詞數量倒序排序過程及其詳解

1.將文件加載成RDD

Scala>  var file=sc.textFile(“hdfs://h301:9000/hh.txt”)

2.將每行按逗號拆分,結果裝載到一個數組中,每次提取一個單詞, _代表每次輸入內容的占位符

Scala>  val  h2=file.flatMap(_.split(“,”))

3. 將數組中的每個元素裝載到map方法中執行統一的處理任務,將輸入的每個單詞返回成k,v 鍵值對,reduceByKey()方法只對value只運行括號內的方法進行迭代計算_+_ 代表累加,返回的是k和進行過迭代計算的v 鍵值對

Scala>  val  h3=h2.map(x=>(x,1)).reduceByKey(_+_)

4. 再用第二個map接收上一步的k,v鍵值對進行交換位置輸出例如:

輸入的是(“hello”,5)變成(5,”hello”)

Scala>  val  h4=h3.map(_.2,_.1)

5. 將結果按key值排序

Scala>  val  h5=h5.sortByKey(false)      false=倒序 true=升序

6. 在使用map函數將拍好序的鍵值對進行交換例如:

(5,”hello”) (4,”hadoop”)   變成(“hello”,5)(“hadoop”,4)

Scala> val  h6=h5.map(_.2,_.1)

7. 到此已經完成了詞頻統計并按照單詞數量的降序進行了排列已經完成下一步可以將結果輸出到文件夾中,注意是一個目錄

Scala>  h6.saveAsTextFile("hdfs://h201:9000/output1")

上述所有操作拆分為了方便理解,可以將所有操作合成一條代碼:如下

Scala > val wc = file.flatMap(_.split(",")).map(x=>(x,1)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1)).saveAsTextFile(“hdfs://h301:9000/output1”)

 

flatMap() 與 map() 的區別

flatMap() 與 map() 都是對輸入的每行內容做同樣的操作但是產生的結果不相同;

例如樣本:

hello,world

hello,hadoop

hello,oracle

將文件導入成RDD  =》var file=sc.textFile(“hdfs://xxx:9000/xx.txt”)

同樣是用split方法按逗號分隔

Var fm=file.flatMap(_.split(“,”))   每行按逗號分隔后產生的結果解將每個單詞放在一個集合中,下面如果使用fm中的內容是每次只會導入一個單詞:

用java表示就是{‘hello’,’world’,’hello’,’hadoop’,’hello’,’oracle’} 相當于一維數組

Var m=file.map(_.split(“,”))   每行按逗號分隔后產生的結果是將每行的變成一個字符串數組,再放到一個大的結果集中,下面如果使用m中的內容每次導入一個數組:

用java表示就是{{‘hello’,’world’},{‘hello’,’hadoop’},{‘hello’,’oracle’}} 相當于二維數組

這在使用Apache日志統計PV時很有用例如日志格式如下:

123.23.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

23.12.4.5 - - xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

我們只需要取出按空格分隔的第一個列即可 這是使用flatMap就不合適了我們可以用map

Salca > var file=sc.textFile(“hdfs://h301:9000/access.log”)

Salca> var h2=file.map(_.split(“ ”,2))      #按空格分隔最多兩列

Salca> var h3=h2.map(x=>(x(0),1))       #輸入的數組去第0列,即可取出IP

Salca> var h4=h3.reduceByKey(_+_)      #統計每個鏈接的登錄次數

下面就是排序和保存在這里就不在重復了。

上述就是小編為大家分享的Spark shell 詞頻統計和統計PV的心得是什么了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關知識,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

蕲春县| 夏河县| 寿阳县| 南京市| 宁强县| 诸城市| 平山县| 宁明县| 靖州| 临漳县| 宜阳县| 米易县| 西吉县| 岢岚县| 宁波市| 阳春市| 汉寿县| 浦东新区| 即墨市| 饶阳县| 涞源县| 阜南县| 开原市| 集安市| 禄丰县| 新乡县| 定襄县| 永川市| 东海县| 阿克苏市| 河源市| 浑源县| 钦州市| 河东区| 驻马店市| 孝义市| 青神县| 游戏| 威海市| 汝城县| 兴和县|