[時間:2018-07] [狀態:Open]
[關鍵詞:linux, wc, split, 通配符,轉義符,linux命令]
0 引言
整理這篇文章的目的不是為了什么學習,僅僅是為了強化下記憶,以便下次可以直接使用不用重新搜索一次了。
本文將主要整理linux shell下的命令,如果你不是在*nix系統下使用,建議無視本文。
后面內容主要包含三部分:wc、split以及shell中的特殊字符。
1 wc
字符計數工具
wc
命令可輸出給定文件或文件列表的行數、字節數、字符數、詞數以及最大行寬度( line > word > char > byte)。具體語法如下:
短選項 | 長選項 | 說明及描述 |
---|---|---|
-c | --bytes | 輸出字節數,和ll 命令的文件長度一致 |
-m | --chars | 輸出字符數,字符值得是可顯示字符,比如多字節碼中一個字符占用多個字節 |
-w | --words | 輸出詞數,詞是使用空格分隔的,所以這個統計可能不准確,不是傳統意義上的詞數 |
-l | --lines | 輸出行數 |
-L | --max-line-length | 輸出最大行寬度,使用字節為單位 |
1.1 應用舉例
wc
命令默認的輸出如下:
~$ wc text
0 2 17 text -----------依次為行數、詞數和字節數
字符數的輸出如下:
~$ wc -m text
9 text
我的測試文件text中包含的內容如下:
文件選項, 213 --------注意中間有空格
此文件中只有一個空格,沒有換行符,所以輸出為上面結果。
1.2 參考資料
2 split
文件分割命令
我所遇到的問題是這樣的:在日志分析時,如果日文件過大,比如說10G文件,通常多數編輯器打不開或者打開很慢,對大文件搜索支持非常弱。比如Notepad++就直接限制文件大小為500MB。為了快速分析日志,提高效率,還是盡量避免直接打開大約1GB的文件。所以,找找有沒有可以完成文件分割的工具。
最終找到split
。split
支持按照行數、字節大小分割文件,也可以指定分片的個數。
split默認行為是將輸入文件切分為1000行的分片。(所以文件比較大的時候慎重使用默認參數)
具體用法如下:
短選項 | 長選項 | 說明及描述 |
---|---|---|
-l NUM | --lines=NUM | 分片文件每個包含NUM行,默認換行符ASCII LF |
-b size | --bytes=size | 分片文件每個長度為size字節 |
-C size | --line-bytes=size | 以行為單元切分,但最終分片總長度不超過size字節 |
-n chunks | --number=chunks | 按照給定chunks數目分片,格式支持如下 n, k/n, l/n, l/k/n, r/n, r/k/n |
-t sep | --separator=sep | 指定換行符 |
-u | --unbuffered | 無緩沖模式,速度略慢 |
-a length | --suffix-length=length | 分片文件名稱的后綴長度,默認為2 |
-d from | --numeric-suffixes=from | 使用數字而非字母編號作為后綴,指定起始數字,默認為0 |
-x from | --numeric-suffixes=from | 使用十六進制作為后綴 |
2.1 示例
按照行切分,切分之后文件最大1G
split -C 1G input
按照字節切分,限制切分長度為500MB
split -b 500M input sdata
指定分割數目切分,分割為三個文件
split -n 3 input
指定分割數目切分,不切分行的形式切分:
split -n l/3 input
指定分割數目切分,按照均勻分布形式切分:
split -n r/3 input
指定分割數目切分,輸出第k(k=2)個分割內容到stdout:
split -n 2/3 input
2.2 參考資料
2.3 延伸
有分割命令,一定有合並命令,split和cat是對應的。有興趣的可以看看linux-manual。
3 shell中的特殊字符
這里僅整理通配符和轉義符,其他的建議查看Linux Shell 通配符、元字符、轉義符使用實例介紹。
3.1 通配符
shell中的通配符跟正則表達式有些類似,不過相對簡單點。當shell在“參數”中遇到了通配符時,shell會將其當作路徑或文件名去在磁盤上搜尋可能的匹配:若符合要求的匹配存在,則進行替換(路徑擴展);否則就將該通配符作為一個普通字符傳遞給“命令”,然后再由命令進行處理。總之,通配符實際上就是一種shell實現的路徑擴展功能。
常見的通配符有:
字符 | 含義 | 實例 | 描述 |
---|---|---|---|
* | 匹配零或多個字符 | a*b | a與b之間可以有任意長度的任意字符, 如aabcb, axyzb, a012b, ab |
? | 匹配任意一個字符 | a?b | a與b之間有且僅有一個字符, 如aab, abb, acb, a0b |
[list] | 匹配list 中的任意單一字符 |
a[xyz]b | a與b之間有且僅有一個字符, 但只能是x/y/z, 如: axb, ayb, azb |
[!list] | 匹配除list 中的任意單一字符 |
a[!0-9]b | a與b之間有且僅有一個字符, 但不能是阿拉伯數字, 如axb, aab, a-b |
[c1-c2] | 匹配c1-c2中的任意單一字符 | a[0-9]b | a與b之間有且僅有一個字符,必須是字符0-9之間的,如a0b, a1b... a9b |
{s1,s2,...} | 匹配s1或s2(或更多)其一字符串 | a{abc,xyz,123}b | a與b之間只能是abc或xyz或123這三個字符串之一 |
3.2 轉義符
下面整理下轉義字符,具體內容如下:
字符 | 說明 |
---|---|
\(反斜杠) | 最常見的轉義符,去除其后緊跟的元字符或通配符的特殊意義。 |
' '(單引號) | 又叫硬轉義,其內部所有的shell元字符、通配符都會將失效。注意,硬轉義中不允許出現'(單引號)。 |
""(雙引號) | 又叫軟轉義,其內部只允許出現特定的shell元字符:$用於參數代換 `用於命令代替 |
4 小結
本文整理了shell命令wc以及split的用法,同時簡單整理shell中的通配符和轉義字符。僅為加強記憶,作為后續參考。