shell高效處理文本(1)：xargs並行處理

本文轉載自查看原文 2018-10-08 07:45 2974 shell

xargs具有並行處理的能力，在處理大文件時，如果應用得當，將大幅提升效率。

xargs詳細內容(全網最詳細)：https://www.cnblogs.com/f-ck-need-u/p/5925923.html

效率提升測試結果

先展示一下使用xargs並行處理提升的效率，稍后會解釋下面的結果。

測試環境：

win10子系統上
32G內存
8核心cpu
測試對象是一個放在固態硬盤上的10G文本文件(如果你需要此測試文件，點此下載，提取碼: semu)

下面是正常情況下wc -l統計這個10G文件行數的結果，花費16秒，多次測試，cpu利用率基本低於80%。

$ /usr/bin/time wc -l 9.txt
999999953 9.txt
4.56user 3.14system 0:16.06elapsed 47%CPU (0avgtext+0avgdata 740maxresident)k
0inputs+0outputs (0major+216minor)pagefaults 0swaps

通過分割文件，使用xargs的並行處理功能進行統計，花費時間1.6秒，cpu利用率752%：

$ /usr/bin/time ./b.sh
999999953
7.67user 4.54system 0:01.62elapsed 752%CPU (0avgtext+0avgdata 1680maxresident)k
0inputs+0outputs (0major+23200minor)pagefaults 0swaps

用grep從這個10G的文本文件中篩選數據，花費時間24秒，cpu利用率36%：

$ /usr/bin/time grep "10000" 9.txt >/dev/null
6.17user 2.57system 0:24.19elapsed 36%CPU (0avgtext+0avgdata 1080maxresident)k
0inputs+0outputs (0major+308minor)pagefaults 0swaps

通過分割文件，使用xargs的並行處理功能進行統計，花費時間1.38秒，cpu利用率746%：

$ /usr/bin/time ./a.sh
6.01user 4.34system 0:01.38elapsed 746%CPU (0avgtext+0avgdata 1360maxresident)k
0inputs+0outputs (0major+31941minor)pagefaults 0swaps

速度提高的不是一點點。

xargs並行處理簡單示例

要使用xargs的並行功能，只需使用"-P N"選項即可，其中N是指定要運行多少個並行進程，如果指定為0，則使用盡可能多的並行進程數量。

需要注意的是：

既然要並行，那么xargs必須得分批傳送管道的數據，xargs的分批選項有"-n"、"-i"、"-L"，如果不知道這些內容，看本文開頭給出的文章。
並行進程數量應該設置為cpu的核心數量。如果設置為0，在處理時間較長的情況下，很可能會並發幾百個甚至上千個進程。在我測試一個花費2分鍾的操作時，創建了500多個進程。
在本文后面，還給出了其它幾個注意事項。

例如，一個簡單的sleep命令，在不使用"-P"的時候，默認是一個進程按批的先后進行處理：

[root@xuexi ~]# time echo {1..4} | xargs -n 1 sleep
 
real    0m10.011s
user    0m0.000s
sys     0m0.011s

總共用了10秒，因為每批傳一個參數，第一批睡眠1秒，然后第二批睡眠2秒，依次類推，還有3秒、4秒，共1+2+3+4=10秒。

如果使用-P指定4個處理進程，它將以處理時間最長的為准：

[root@xuexi ~]# time echo {1..4} | xargs -n 1 -P 4 sleep
 
real    0m4.005s
user    0m0.000s
sys     0m0.007s

再例如，find找到一大堆文件，然后用grep去篩選：

find /path -name "*.log" | xargs -i grep "pattern" {}
find /path -name "*.log" | xargs -P 4 -i grep "pattern" {}

上面第一個語句，只有一個grep進程，一次處理一個文件，每次只被其中一個cpu進行調度。也就是說，它無論如何，都只用到了一核cpu的運算能力，在極端情況下，cpu的利用率是100%。

上面第二個語句，開啟了4個並行進程，一次可以處理從管道傳來的4個文件，在同一時刻這4個進程最多可以被4核不同的CPU進行調度，在極端情況下，cpu的利用率是400%。

並行處理示例

下面是文章開頭給出的實驗結果對應的示例。一個10G的文本文件9.txt，這個文件里共有9.9億(具體的是999999953)行數據。

首先一個問題是，怎么統計這么近10億行數據的？wc -l，看看時間花費。

$ /usr/bin/time wc -l 9.txt
999999953 9.txt
4.56user 3.14system 0:16.06elapsed 47%CPU (0avgtext+0avgdata 740maxresident)k
0inputs+0outputs (0major+216minor)pagefaults 0swaps

總共花費了16.06秒，cpu利用率是47%。

隨后，我把這10G數據用split切割成了100個小文件，在提升效率方面，split切割也算是妙用無窮：

split -n l/100 -d -a 3 9.txt fs_

這100個文件，每個105M，文件名都以"fs_"為前綴：

$ ls -lh fs* | head -n 5
-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_000
-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_001
-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_002
-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_003
-rwxrwxrwx 1 root root 105M Oct  6 17:31 fs_004

然后，用xargs的並行處理來統計，以下是統計腳本b.sh的內容：

#!/usr/bin/env bash

find /mnt/d/test -name "fs*" |\
 xargs -P 0 -i wc -l {} |\
 awk '{sum += $1}END{print sum}'

上面用-P 0選項指定了盡可能多地開啟並發進程數量，如果要保證最高效率，應當設置並發進程數量等於cpu的核心數量(在我的機器上，應該設置為8)，因為在操作時間較久的情況下，可能會並行好幾百個進程，這些進程之間進行切換也會消耗不少資源。

然后，用這個腳本去統計測試：

$ /usr/bin/time ./b.sh
999999953
7.67user 4.54system 0:01.62elapsed 752%CPU (0avgtext+0avgdata 1680maxresident)k
0inputs+0outputs (0major+23200minor)pagefaults 0swaps

只花了1.62秒，cpu利用率752%。和前面單進程處理相比，時間是原來的16分之1，cpu利用率是原來的好多好多倍。

再來用grep從這個10G的文本文件中篩選數據，例如篩選包含"10000"字符串的行：

$ /usr/bin/time grep "10000" 9.txt >/dev/null
6.17user 2.57system 0:24.19elapsed 36%CPU (0avgtext+0avgdata 1080maxresident)k
0inputs+0outputs (0major+308minor)pagefaults 0swaps

24秒，cpu利用率36%。

再次用xargs來處理，以下是腳本：

#!/usr/bin/env bash

find /mnt/d/test -name "fs*" |\
 xargs -P 8 -i grep "10000" {} >/dev/null

測試結果：

$ /usr/bin/time ./a.sh
6.01user 4.34system 0:01.38elapsed 746%CPU (0avgtext+0avgdata 1360maxresident)k
0inputs+0outputs (0major+31941minor)pagefaults 0swaps

花費時間1.38秒，cpu利用率746%。

這比用什么ag、ack替代grep有效多了。

提升哪些效率以及注意事項

xargs並行處理用的好，能大幅提升效率，但這是有條件的。

首先要知道，xargs是如何提升效率的，以grep命令為例：

ls fs* | xargs -i -P 8 grep 'pattern' {}

之所以xargs能提高效率，是因為xargs可以分批傳遞管道左邊的結果給不同的並發進程，也就是說，xargs要高效，得有多個文件可處理。對於上面的命令來說，ls可能輸出了100個文件名，然后1次傳遞8個文件給8個不同的grep進程。

還有一些注意事項：

1.如果只有單核心cpu，想提高效率，沒門
2.xargs的高效來自於處理多個文件，如果你只有一個大文件，那么需要將它切割成多個小片段
3.由於是多進程並行處理不同的文件，所以命令的多行輸出結果中，順序可能會比較隨機

例如，統計行數時，每個文件的出現順序是不受控制的。

10000000 /mnt/d/test/fs_002
9999999 /mnt/d/test/fs_001
10000000 /mnt/d/test/fs_000
10000000 /mnt/d/test/fs_004
9999999 /mnt/d/test/fs_005
9999999 /mnt/d/test/fs_003
10000000 /mnt/d/test/fs_006
9999999 /mnt/d/test/fs_007

不過大多數時候這都不是問題，將結果排序一下就行了。

4.xargs提升效率的本質是cpu的利用率，因此會有內存、磁盤速度的瓶頸。如果內存小，或者磁盤速度慢(將因為加載數據到內存而長時間處於io等待的睡眠狀態)，xargs的並行處理基本無效。

例如，將上面10G的文本文件放在虛擬機上，機械硬盤，內存2G，將會發現使用xargs並行和普通的命令處理幾乎沒有差別，因為絕大多數時間都花在了加載文件到內存的io等待上。

下一篇文章將介紹GNU parallel並行處理工具，它的功能更豐富，效果更強大。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python 並行處理數據 R語言中for循環的並行處理 GPU體系架構(一)：數據的並行處理 CNC系統的多任務並行處理 java8 parallel並行處理實戰 Oracle學習筆記：parallel並行處理 spark 調優多線程並行處理任務 Antd 表格 -- 自定義合並行處理 PyTorch 60 分鍾入門教程：數據並行處理《C#並發編程經典實例》學習筆記—3.1 數據的並行處理