中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

linux中如何使用awk完成更多結構化的復雜任務

發布時間:2021-10-28 17:55:11 來源:億速云 閱讀:151 作者:小新 欄目:系統運維

這篇文章將為大家詳細講解有關linux中如何使用awk完成更多結構化的復雜任務,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。


awk 的程序結構

awk 腳本是由 {}(大括號)包圍的功能塊組成,其中有兩個特殊的功能塊,BEGIN 和 END,它們在處理第一行輸入流之前和最后一行處理之后執行。在這兩者之間,塊的格式為:

模式 { 動作語句 }

當輸入緩沖區中的行與模式匹配時,每個塊都會執行。如果沒有包含模式,則函數塊在輸入流的每一行都會執行。

另外,以下語法可以用于在 awk 中定義可以從任何塊中調用的函數。

function 函數名(參數列表) { 語句 }

這種模式匹配塊和函數的組合允許開發者結構化的 awk 程序,以便重用和提高可讀性。

awk 如何處理文本流

awk 每次從輸入文件或流中一行一行地讀取文本,并使用字段分隔符將其解析成若干字段。在 awk 的術語中,當前的緩沖區是一個記錄。有一些特殊的變量會影響 awk 讀取和處理文件的方式:

  • FS

    字段分隔符field separator

    )。默認情況下,這是任何空格字符(空格或制表符)。

  • RS

    記錄分隔符record separator

    )。默認情況下是一個新行(n)。

  • NF

    字段數number of fields

    )。當 awk 解析一行時,這個變量被設置為被解析出字段數。

  • $0: 當前記錄。

  • $1$2$3 等:當前記錄的第一、第二、第三等字段。

  • NR

    記錄數number of records

    )。迄今已被 awk 腳本解析的記錄數。

影響 awk 行為的變量還有很多,但知道這些已經足夠開始了。

單行 awk 腳本

對于一個如此強大的工具來說,有趣的是,awk 的大部分用法都是基本的單行腳本。也許最常見的 awk 程序是打印 CSV 文件、日志文件等輸入行中的選定字段。例如,下面的單行腳本從 /etc/passwd 中打印出一個用戶名列表:

awk -F":" '{print $1 }' /etc/passwd

如上所述,$1 是當前記錄中的第一個字段。-F 選項將 FS 變量設置為字符 :

字段分隔符也可以在 BEGIN 函數塊中設置:

awk 'BEGIN { FS=":" } {print $1 }' /etc/passwd

在下面的例子中,每一個 shell 不是 /sbin/nologin 的用戶都可以通過在該塊前面加上匹配模式來打印出來:

awk 'BEGIN { FS=":" } ! /\/sbin\/nologin/ {print $1 }' /etc/passwd

awk 進階:郵件合并

現在你已經掌握了一些基礎知識,嘗試用一個更具有結構化的例子來深入了解 awk:創建郵件合并。

郵件合并使用兩個文件,其中一個文件(在本例中稱為 email_template.txt)包含了你要發送的電子郵件的模板:

From: Program committee <pc@event.org>To: {firstname} {lastname} <{email}>Subject: Your presentation proposal Dear {firstname}, Thank you for your presentation proposal:  {title} We are pleased to inform you that your proposal has been successful! Wewill contact you shortly with further information about the eventschedule. Thank you,The Program Committee

而另一個則是一個 CSV 文件(名為 proposals.csv),里面有你要發送郵件的人:

firstname,lastname,email,titleHarry,Potter,hpotter@hogwarts.edu,"Defeating your nemesis in 3 easy steps"Jack,Reacher,reacher@covert.mil,"Hand-to-hand combat for beginners"Mickey,Mouse,mmouse@disney.com,"Surviving public speaking with a squeaky voice"Santa,Claus,sclaus@northpole.org,"Efficient list-making"

你要讀取 CSV 文件,替換第一個文件中的相關字段(跳過第一行),然后把結果寫到一個叫 acceptanceN.txt 的文件中,每解析一行就遞增文件名中的 N

把 awk 程序寫在一個叫 mail_merge.awk 的文件中。在 awk 腳本中的語句用 ; 分隔。第一個任務是設置字段分隔符變量和其他幾個腳本需要的變量。你還需要讀取并丟棄 CSV 中的第一行,否則會創建一個以 Dear firstname 開頭的文件。要做到這一點,請使用特殊函數 getline,并在讀取后將記錄計數器重置為 0。

BEGIN {  FS=",";  template="email_template.txt";  output="acceptance";  getline;  NR=0;}

主要功能非常簡單:每處理一行,就為各種字段設置一個變量 &mdash;&mdash; firstnamelastnameemail 和 title。模板文件被逐行讀取,并使用函數 sub 將任何出現的特殊字符序列替換為相關變量的值。然后將該行以及所做的任何替換輸出到輸出文件中。

由于每行都要處理模板文件和不同的輸出文件,所以在處理下一條記錄之前,需要清理和關閉這些文件的文件句柄。

{        # 從輸入文件中讀取關聯字段        firstname=$1;        lastname=$2;        email=$3;        title=$4;         # 設置輸出文件名        outfile=(output NR ".txt");         # 從模板中讀取一行,替換特定字段,        # 并打印結果到輸出文件。        while ( (getline ln &lt; template) &gt; 0 )        {                sub(/{firstname}/,firstname,ln);                sub(/{lastname}/,lastname,ln);                sub(/{email}/,email,ln);                sub(/{title}/,title,ln);                print(ln) &gt; outfile;        }         # 關閉模板和輸出文件,繼續下一條記錄        close(outfile);        close(template);}

你已經完成了! 在命令行上運行該腳本:

awk -f mail_merge.awk proposals.csv

awk -f mail_merge.awk < proposals.csv

你會在當前目錄下發現生成的文本文件。

awk 進階:字頻計數

awk 中最強大的功能之一是關聯數組,在大多數編程語言中,數組條目通常由數字索引,但在 awk 中,數組由一個鍵字符串進行引用。你可以從上一節的文件 proposals.txt 中存儲一個條目。例如,在一個單一的關聯數組中,像這樣:

        proposer["firstname"]=$1;        proposer["lastname"]=$2;        proposer["email"]=$3;        proposer["title"]=$4;

這使得文本處理變得非常容易。一個使用了這個概念的簡單的程序就是詞頻計數器。你可以解析一個文件,在每一行中分解出單詞(忽略標點符號),對行中的每個單詞進行遞增計數器,然后輸出文本中出現的前 20 個單詞。

首先,在一個名為 wordcount.awk 的文件中,將字段分隔符設置為包含空格和標點符號的正則表達式:

BEGIN {        # ignore 1 or more consecutive occurrences of the characters        # in the character group below        FS="[ .,:;()<>{}@!\"'\t]+";}

接下來,主循環函數將遍歷每個字段,忽略任何空字段(如果行末有標點符號,則會出現這種情況),并遞增行中單詞數:

{        for (i = 1; i &lt;= NF; i++) {                if ($i != "") {                        words[$i]++;                }        }}

最后,處理完文本后,使用 END 函數打印數組的內容,然后利用 awk 的能力,將輸出的內容用管道輸入 shell 命令,進行數字排序,并打印出 20 個最常出現的單詞。

END {        sort_head = "sort -k2 -nr | head -n 20";        for (word in words) {                printf "%s\t%d\n", word, words[word] | sort_head;        }        close (sort_head);}

在這篇文章的早期草稿上運行這個腳本,會產生這樣的輸出:

[dneary@dhcp-49-32.bos.redhat.com]$ awk -f wordcount.awk < awk_article.txtthe     79awk     41a       39and     33of      32in      27to      26is      25line    23for     23will    22file    21we      16We      15with    12which   12by      12this    11output  11function        11

關于“linux中如何使用awk完成更多結構化的復雜任務”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

资讯| 新闻| 工布江达县| 辉南县| 都昌县| 郸城县| 商丘市| 磴口县| 涿鹿县| 安乡县| 忻州市| 铜梁县| 苏尼特左旗| 河西区| 南康市| 临高县| 灌阳县| 浪卡子县| 信丰县| 渝中区| 磐石市| 清远市| 甘洛县| 蒙自县| 宣汉县| 昭通市| 绥阳县| 淳化县| 台江县| 什邡市| 沂源县| 霍邱县| 盖州市| 渭南市| 微山县| 二手房| 巫溪县| 临猗县| 宣汉县| 沈丘县| 策勒县|