中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

大數據中AWK命令的示例分析

發布時間:2021-11-20 17:26:48 來源:億速云 閱讀:175 作者:小新 欄目:大數據

這篇文章將為大家詳細講解有關大數據中AWK命令的示例分析,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。


對于下面的nginx日志access.log,用腳本分析出訪問ip的Top 10。
其實這個題不難,但是考察了幾個常用的shell 命令,awk、uniq、sort、head,我覺得對于做大數據開發、運維、數倉等來說都是應該必備的。


2018-11-20T23:37:40+08:00 119.15.90.30 - "GET /free.php?proxy=out_hp&sort=&page=1 HTTP/1.1" "/free.php" - 200 0.156 362 6849/7213 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - - - "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /partner.php HTTP/1.1" "/partner.php" - 200 0.016 457 6534/6956 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://blog.csdn.net/ithomer/article/details/6566739 - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/bootstrap.min.css HTTP/1.1" "/css/bootstrap.min.css" - 200 0.045 398 19402/19757 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/hint.min.css HTTP/1.1" "/css/hint.min.css" - 200 0.000 393 1635/1989 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
 
 

來上答案

 cat access.log | awk '{print $2}'| uniq -c | sort -k1 -nr| head -10
 

其實這個問題還有很多變種,比如除了腳本,用你最熟悉的語言寫出來,還有如果文件過大,超過了內存限制,怎么處理。不過這些都是題外話了,我們今天主要講一下awk在工作中的一些簡單的應用。

大數據中AWK命令的示例分析

其實awk的功能非常強大,不過今天我們主要來講講在我們的工作中比較常用的awk用法。


awk '{[pattern] action}' {filenames}

   

切割文件

-F 指定拆分文件的分隔符,默認是空格或者 \t 比如上面的日志我們想獲取第二列的ip地址,我們可以這樣寫

awk -F ' ' '{print $2}'  access.log 
 

空格我們是可以不用寫的,我這里寫出來做一個示范。

其實還有一種特殊字符,比如hive中默認分隔符是0x01,這種的使用awk怎么寫呢?

awk -F '\\001' '{ print $1 }' abcd.txt
   

內置變量的使用

  • $0 用于打印出整行的字段.
  • $n 由 -F 參數指定的分隔符切割之后,$n用于打印出來第幾個字段,索引從1開始    
  • NF 每行數據切分之后,有多少列,比如我們可以用print $NF 來打印出最后一列

有一些時候我們可以用awk 截取其中的某幾個字段拼接出來我們想要的一些語句。
比如我們想截取上面access.log里面的ip字段,然后生成一些sql,插入到數據庫。


awk '{print "insert into mytable(ip) values('\''"$2"'\'');"}'  access.log > /tmp/ip.sql

 

大數據中AWK命令的示例分析

有人會問,這種場景一般什么時候會用呢,比如你有一萬條或者更多的數據,你完全可以寫一個sql來插入,但是如果是數量太多的話,一次性寫入太多數據,會導致鎖表,這個時候其他人就沒法插入了,如果是線上的生產環境就更不允許了,所以對于一些類似的操作,我們可以拆分出多個sql來一個個的執行,這樣單個sql鎖表的時間就會減少,避免長時間鎖表帶來的數據庫不可用。

 

正則匹配

有時候我們只想打印出來一些我們想要的列,我們可以通過正則匹配來做。

比如我們想打印出來上面的access.log中117開頭的ip,可以這樣做.

awk '$2 ~ /^117/ {print $2}' access.log 
   

類sql功能

其實awk還可以幫我們實現一些簡單的類似sql的功能,我們也簡單說一下。

比如我們有一個下面的學生表

id  班級  姓名
id    class   name

1  1班 張三
2  2班 李四
3  1班 王五
4  3班 趙六

比如我們想統計每個班級有多少同學,可以使用如下命令

awk '{a[$2]++} END {for(i in a){print i"人數 : "a[i]}}' student.txt
    

關于“大數據中AWK命令的示例分析”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

泾川县| 吴堡县| 忻城县| 阿勒泰市| 武山县| 高邑县| 隆子县| 肥西县| 乌恰县| 铜陵市| 美姑县| 石河子市| 高安市| 昌宁县| 察哈| 翁牛特旗| 杭州市| 广宁县| 原阳县| 牟定县| 宁夏| 镇平县| 南城县| 永顺县| 东明县| 沭阳县| 洪泽县| 定襄县| 藁城市| 大渡口区| 万年县| 山阴县| 柳州市| 饶河县| 容城县| 兴海县| 界首市| 安西县| 哈尔滨市| 萨迦县| 大同市|