通過split命令分割大文件

本文轉載自查看原文 2020-01-12 22:16 1914 python/ 面試題

應用場景

　　面試題：大文件，小內存怎么讀取
　　線上出問題，通過查找log定位問題，由於線上數據量龐大，這些log文件可能達到了五六g以上的大小。

　　對於這種巨大的log文件，常用的一些文本編輯器諸如EditPlus、Notepad++就不用說了，打開幾百m的文件都會很卡，上g的直接程序崩潰。雖然UltraEdit對於大文件的讀取會友好一些，但打開這種五六g的文件時也會陷入長時間的無響應狀態。

　　后來找到看log神器——glogg，打開五六g的大文件速度很快，但是有個問題，就是只能讀取文件，不能編輯文件。畢竟我不只是要查看log，有時候還要對這些有用的log信息進行編輯。最后還是決定先把大文件分割成數個小文件，再用UltraEdit來查看這些文件。

使用split命令分割大文件

分割文件的命令是split，通過輸入split --help可以查詢幫助信息。假設現在有個6GB大小的文件test.log，這里簡單介紹下幾種分割的方式：

1. 按大小分割文件

　　split -b 1000000000 test.log

-b參數表示按字節大小進行分割，在數字后邊要指定被分割的文件名。這里在輸入文件名時有個小技巧，可以直接把該文件拖動到cmd窗口中，會自動輸入該文件的具體目錄。這里的文件還可以使用通配符，比如split -b 1000000000 *。
這個命令表示按1000000000byte的大小進行分割，近似於1GB，大概是953MB的大小。對於這個6GB大小的文件test.log，會被分割成6個小文件。這些小文件的命名是有規律的：xaa、xab、xac、xad、xae、xaf。如果你分割了非常多的小文件，當文件名到了xyz之后，會變成xzaaa、xzaab、xzaac、xzaad……所以不用擔心小文件過多而導致文件重名什么的。
當然，上邊的這種寫法不夠人性化，我們可以使用其他的單位來指定分割的大小：k、m。k表示KB，m表示MB。
split -b 100k test.log表示將test.log按照100KB的大小進行分割。
split -b 100m test.log表示將test.log按照100MB的大小進行分割。

2. 按照所有行數加起來的最大字節數進行分割

split -C 100k test.log

3. 按照行數進行分割

　　split -l 1000 test.log

　　split -1000 test.log

4. 注意點

這三種分割的方式不能混合使用，如下：

　　split -l 3000 -C 100k *
　　會報錯split: cannot split in more than one way。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 通過split命令分割大文件 linux大文件分割 split命令 linux 使用split分割大文件 Linux中split大文件分割和cat合並文件 Linux split命令切割大文件 linux中使用split命令分割文件 Linux 使用 split 命令分割文件 split分割大文件--包含通過awk按規則分割文件到對應子文件 linux下使用split命令分割文件且文件號從1開始 split分割文件與數據