使用 awk 過濾文本或文件中的字符串

本文轉載自查看原文 2017-09-17 21:23 6400

當我們在 Unix/Linux 下使用特定的命令從字符串或文件中讀取或編輯文本時，我們經常需要過濾輸出以得到感興趣的部分。這時正則表達式就派上用場了。

正則表達式可以定義為代表若干個字符序列的字符串。它最重要的功能之一就是它允許你過濾一條命令或一個文件的輸出、編輯文本或配置文件的一部分等等。

正則表達式由以下內容組合而成：

你必須使用類似 awk 這樣的文本過濾工具來過濾文本。你還可以把 awk 自身當作一個編程語言。但由於這個指南的適用范圍是關於使用 awk 的，我會按照一個簡單的命令行過濾工具來介紹它。

awk 的一般語法如下：

此處 'script' 是一個由 awk 可以理解並應用於 filename 的命令集合。

它通過讀取文件中的給定行，復制該行的內容並在該行上執行腳本的方式工作。這個過程會在該文件中的所有行上重復。

該腳本 'script' 中內容的格式是 '/pattern/ action'，其中 pattern 是一個正則表達式，而 action是當 awk 在該行中找到此模式時應當執行的動作。

在下面的例子中，我們將聚焦於之前討論過的元字符。

下面的例子打印文件 /etc/hosts 中的所有行，因為沒有指定任何的模式。

awk 打印文件中的所有行

在下面的示例中，指定了模式 localhost，因此 awk 將匹配文件 /etc/hosts 中有 localhost 的那些行。

awk 打印文件中匹配模式的行

在下面的例子中，符號 (.) 將匹配包含 loc、localhost、localnet 的字符串。

這里的正則表達式的意思是匹配 l一個字符c。

使用 awk 打印文件中匹配模式的字符串

（LCTT 譯者注：此處原文作者理解有誤，感謝微信讀者“止此而已”的提醒，* 在此處表示其前一個字符重復零次或多次，所以實際上相當於 * 及前面的字符是無用的。）

在下面的例子中，將匹配包含 localhost、localnet、lines, capable 的字符串。將匹配帶有 c 字符的字符串。

使用 awk 匹配文件中的字符串

你可能也意識到 (*) 將會嘗試匹配它可能檢測到的最長的匹配。

讓我們看一看可以證明這一點的例子，正則表達式 t*t 的意思是在下面的行中匹配以 t 開始和 t 結束的字符串：將匹配帶有 t 字符的字符串：

this is tecmint, where you get the best good tutorials, how to's, guides, tecmint.

當你使用模式 /t*t/ 時，會得到如下可能的結果：以下字符串只是有 t 字符而已：

this is t
this is tecmint
this is tecmint, where you get t
this is tecmint, where you get the best good t
this is tecmint, where you get the best good tutorials, how t
this is tecmint, where you get the best good tutorials, how tos, guides, t
this is tecmint, where you get the best good tutorials, how tos, guides, tecmint