基礎知識
功能:使用 shell
的 split
可以將一個大文件分割成很多個小文件,有時文件太大處理起來不方便就需要使用到了。
在默認情況下將按照每1000行切割成一個小文件。
語法:
split [-<行數>][-b][-c][-l] file.txt
參數說明:
split [-bl] file [prefix] -a 5 -d
-b -- bytes=size 對file進行切分 每個小文件大小為size 可以指定單位b,k,m
-l -- lines=number 對file進行切分 每個文件都有number行
-a 5 后綴長度
-d 數字后綴
-c <字節> : 與參數"-b"相似,但是在切割時將盡量維持每行的完整性
prefix 分割后產生的文件名前綴
實例
實例一
使用指令 split
將文件 file.txt
每6行切割為一個文件,輸入:
split -6 file.txt
-rw-r--r-- 1 root root 27 Nov 13 09:32 file.txt
-rw-r--r-- 1 root root 12 Nov 13 09:32 xaa
-rw-r--r-- 1 root root 15 Nov 13 09:32 xab
實例二
假設要切分的文件為 file.txt
大小為 109M 3192043行。
- 按行數切割
split -l 1000000 file.txt ## 按每個文件一百萬行進行切割
-rw-r--r-- 1 root root 113209645 Sep 2 11:04 file.txt
-rw-r--r-- 1 root root 35466488 Sep 2 15:46 xaa
-rw-r--r-- 1 root root 35465970 Sep 2 15:46 xab
-rw-r--r-- 1 root root 35465632 Sep 2 15:46 xac
-rw-r--r-- 1 root root 6811555 Sep 2 15:46 xad
生成xaa、xab、xac、xad等4個文件。
- 按大小切割
split -b 20m file.txt ## 按每個文件20m的大小進行切割
-rw-r--r-- 1 root root 113209645 Sep 2 11:04 file.txt
-rw-r--r-- 1 root root 20971520 Sep 2 15:47 xaa
-rw-r--r-- 1 root root 20971520 Sep 2 15:47 xab
-rw-r--r-- 1 root root 20971520 Sep 2 15:47 xac
-rw-r--r-- 1 root root 20971520 Sep 2 15:47 xad
-rw-r--r-- 1 root root 20971520 Sep 2 15:47 xae
-rw-r--r-- 1 root root 8352045 Sep 2 15:47 xaf
生成多個文件,每個大小為20M。
- 添加前綴切割
split -b 50m file.txt example
-rw-r--r-- 1 root root 52428800 Sep 2 15:49 exampleaa
-rw-r--r-- 1 root root 52428800 Sep 2 15:49 exampleab
-rw-r--r-- 1 root root 8352045 Sep 2 15:49 exampleac
- 更改命名
split -l 1000000 file.txt -d -a 3 url_
-rw-r--r-- 1 root root 35466488 Sep 2 16:11 url_000
-rw-r--r-- 1 root root 35465970 Sep 2 16:11 url_001
-rw-r--r-- 1 root root 35465632 Sep 2 16:11 url_002
-rw-r--r-- 1 root root 6811555 Sep 2 16:11 url_003
說明:
- -l 按行分割
- -d 添加數字后綴
- -a 3 表示用3位數來順序命名 后綴長度
- url_ 分割后文件的前綴
- 添加拓展名
split -l 4 file.txt -d -a 3 url_ && ls | grep url_ | xargs -n1 -i {} {}.txt
說明:
- && 將2個命令連接起來一起執行
- 查找url_開頭的文件,逐個重命名為xxx.txt
- 使用
cat
命令合並數據
cat url_*.txt > url.txt
其他
dd命令
生成一個大小為100kb的測試文件:
dd if=/dev/zero bs=100k count=1 of=data.file
1+0 records in
1+0 records out
102400 bytes (102 kB) copied, 0.000258 seconds, 397 MB/s
# count=1指僅拷貝一個塊
# bs=100k 指塊大小為100k個字節
dd命令用指定大小的塊拷貝一個文件,並在拷貝的同時進行指定的轉換。
- if=文件名:輸入文件名,缺省為標准輸入。即指定源文件。< if=input file >
- of=文件名:輸出文件名,缺省為標准輸出。即指定目的文件。< of=output file >
- ibs=bytes:一次讀入bytes個字節,即指定一個塊大小為bytes個字節。
obs=bytes:一次輸出bytes個字節,即指定一個塊大小為bytes個字節。
bs=bytes:同時設置讀入/輸出的塊大小為bytes個字節。 - cbs=bytes:一次轉換bytes個字節,即指定轉換緩沖區大小。
- skip=blocks:從輸入文件開頭跳過blocks個塊后再開始復制。
- seek=blocks:從輸出文件開頭跳過blocks個塊后再開始復制。
注意:通常只用當輸出文件是磁盤或磁帶時才有效,即備份到磁盤或磁帶時才有效。 - count=blocks:僅拷貝blocks個塊,塊大小等於ibs指定的字節數。
- conv=conversion:用指定的參數轉換文件。
/dev/null和/dev/zero的區別
- /dev/null,外號叫無底洞,你可以向它輸出任何數據,它通吃,並且不會撐着!
- /dev/zero,是一個輸入設備,你可你用它來初始化文件。該設備無窮盡地提供0,可以使用任何你需要的數目——設備提供的要多的多。他可以用於向設備或文件寫入字符串0。
- /dev/null——它是空設備,也稱為位桶(bit bucket)。任何寫入它的輸出都會被拋棄。如果不想讓消息以標准輸出顯示或寫入文件,那么可以將消息重定向到位桶。
- 像/dev/null一樣, /dev/zero也是一個偽文件, 但它實際上產生連續不斷的null的流(二進制的零流,而不是ASCII型的)。 寫入它的輸出會丟失不見, 而從/dev/zero讀出一連串的null也比較困難, 雖然這也能通過od或一個十六進制編輯器來做到。
- /dev/zero主要的用處是用來創建一個指定長度用於初始化的空文件,就像臨時交換文件。
- 關於 /dev/zero 的另一個應用是為特定的目的而用零去填充一個指定大小的文件, 如掛載一個文件系統到環回設備 (loopback device)或"安全地" 刪除一個文件。
參考鏈接1:Linux:split命令詳解
參考鏈接2:linux命令總結dd命令詳解