中文字幕av专区_日韩电影在线播放_精品国产精品久久一区免费式_av在线免费观看网站

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

linux中如何使用awk刪掉文件中重復的行

發布時間:2021-10-23 14:37:00 來源:億速云 閱讀:343 作者:小新 欄目:系統運維

這篇文章將為大家詳細講解有關linux中如何使用awk刪掉文件中重復的行,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。

TL;DR

要保持原來的排列順序刪掉重復行,使用:

awk '!visited[$0]++' your_file > deduplicated_file

工作原理

這個腳本維護一個關聯數組,索引(鍵)為文件中去重后的行,每個索引對應的值為該行出現的次數。對于文件的每一行,如果這行(之前)出現的次數為 0,則值加 1,并打印這行,否則值加 1,不打印這行。

我之前不熟悉 awk,我想弄清楚這么短小的一個腳本是怎么實現的。我調研了下,下面是調研心得:

  • 這個 awk “腳本” !visited[$0]++ 對輸入文件的每一行都執行。

  • visited[] 是一個關聯數組(又名映射)類型的變量。awk 會在第一次執行時初始化它,因此我們不需要初始化。

  • $0 變量的值是當前正在被處理的行的內容。

  • visited[$0] 通過與 $0(正在被處理的行)相等的鍵來訪問該映射中的值,即出現次數(我們在下面設置的)。

  • ! 對表示出現次數的值取反:

    • 如果該值為空,awk 自動把它轉換為 0(數字) 后加 1。

    • 注意:加 1 操作是在我們取到了變量的值之后執行的。

    • 如果 visited[$0] 的值是一個比 0 大的數,取反后被解析成 false

    • 如果 visited[$0] 的值為等于 0 的數字或空字符串,取反后被解析成 true

    • awk 中,任意非零的數或任意非空的字符串的值是 true

    • 變量默認的初始值為空字符串,如果被轉換為數字,則為 0。

    • 也就是說:

    • ++ 表示變量 visited[$0] 的值加 1。

總的來說,整個表達式的意思是:

  • true:如果表示出現次數為 0 或空字符串

  • false:如果出現的次數大于 0

awk 由 模式或表達式和一個與之關聯的動作 組成:

<模式/表達式> { <動作> }

如果匹配到了模式,就會執行后面的動作。如果省略動作,awk 默認會打印(print)輸入。

省略動作等價于 {print $0}

我們的腳本由一個 awk 表達式語句組成,省略了動作。因此這樣寫:

awk '!visited[$0]++' your_file > deduplicated_file

等于這樣寫:

awk '!visited[$0]++ { print $0 }' your_file > deduplicated_file

對于文件的每一行,如果表達式匹配到了,這行內容被打印到輸出。否則,不執行動作,不打印任何東西。

為什么不用 uniq 命令?

uniq 命令僅能對相鄰的行去重。這是一個示例:

$ cat test.txtAAABBBAACCCBBA$ uniq < test.txtABACBA

其他方法

使用 sort 命令

我們也可以用下面的 sort 命令來去除重復的行,但是原來的行順序沒有被保留

sort -u your_file > sorted_deduplicated_file
使用 cat + sort + cut

上面的方法會產出一個去重的文件,各行是基于內容進行排序的。通過管道連接命令可以解決這個問題。

cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-

工作原理

假設我們有下面一個文件:

abcghiabcdefxyzdefghiklm

cat -n test.txt 在每行前面顯示序號:

1       abc2       ghi3       abc4       def5       xyz6       def7       ghi8       klm

sort -uk2 基于第二列(k2 選項)進行排序,對于第二列相同的值只保留一次(u 選項):

1       abc4       def2       ghi8       klm5       xyz

sort -nk1 基于第一列排序(k1 選項),把列的值作為數字來處理(-n 選項):

1       abc2       ghi4       def5       xyz8       klm

最后,cut -f2- 從第二列開始打印每一行,直到最后的內容(-f2- 選項:留意 - 后綴,它表示這行后面的內容都包含在內)。

abcghidefxyzklm

關于“linux中如何使用awk刪掉文件中重復的行”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

松原市| 平舆县| 财经| 诸暨市| 友谊县| 东海县| 曲阜市| 安塞县| 永嘉县| 贺州市| 吴旗县| 玛沁县| 宁安市| 荔浦县| 新建县| 昭通市| 武川县| 察哈| 和顺县| 天全县| 聂拉木县| 安平县| 洛阳市| 榆中县| 乐亭县| 抚顺县| 铁力市| 葫芦岛市| 威海市| 彭泽县| 昌黎县| 玛沁县| 方城县| 黔南| 囊谦县| 禹城市| 湾仔区| 德保县| 克拉玛依市| 桑植县| 同仁县|