0.2 秒居然復制了 100G 文件？怎么做到的？

本文轉載自查看原文 2021-10-13 11:00 145 linux

cp 引發的思考今天同事用 cp 命令，把他給驚到了！
背景是這樣的：他用 cp 拷貝了一個 100 G的文件，竟然一秒不到就拷貝完成了！用 ls 看一把文件，顯示文件確實是 100 G。

sh-4.4# ls -lh
-rw-r--r-- 1 root root 100G Mar 6 12:22 test.txt

但是copy起來為什么會這么快呢？

sh-4.4# time cp ./test.txt ./test.txt.cp

real 0m0.107s
user 0m0.008s
sys 0m0.085s

一個 SATA 機械盤的寫能力能到 150 M/s （大部分的機械盤都是到不了這個值的）就算非常不錯了，正常情況下，copy 一個 100G 的文件至少要 682 秒 ( 100 G/ 150 M/s )，也就是 11 分鍾。實際情況卻是 cp 一秒沒到就完成了工作，驚呆了，為啥呢？更詭異的是：他的文件系統只有 40 G，為啥里面會有一個 100 G的文件呢？同事把我找來，看看這個詭異的問題。

分析文件

我讓他先用 du 命令看一下，卻只有 2M ，根本不是100G，這是怎么回事？

sh-4.4# du -sh ./test.txt
2.0M ./test.txt

再看 stat 命令顯示的信息：

sh-4.4# stat ./test.txt
  File: ./test.txt
  Size: 107374182400 Blocks: 4096       IO Block: 4096   regular file
Device: 78h/120d Inode: 3148347     Links: 1
Access: (0644/-rw-r--r--) Uid: ( 0/ root) Gid: ( 0/ root)
Access: 2021-03-13 12:22:00.888871000 +0000
Modify: 2021-03-13 12:22:46.562243000 +0000
Change: 2021-03-13 12:22:46.562243000 +0000
 Birth: -

stat 命令輸出解釋：

Size 為 107374182400（知識點：單位是字節），也就是 100G ；
Blocks 這個指標顯示為 4096（知識點：一個 Block 的單位固定是 512 字節，也就是一個扇區的大小），這里表示為 2M；

划重點：

Size 表示的是文件大小，這個也是大多數人看到的大小；
Blocks 表示的是物理實際占用空間；

同事問道：“文件大小和實際物理占用，這兩個竟然不是相同的概念！為什么是這樣？ ” “看來，我們必須得深入文件系統才能理解了，來，我給你好好講講。”文件系統文件系統聽起來很高大上，通俗話就用來存數據的一個容器而已，本質和你的行李箱、倉庫沒有啥區別，只不過文件系統存儲的是數字產品而已。我有一個視頻文件，我把這個視頻放到這個文件系統里，下次來拿，要能拿到我完整的視頻文件數據，這就是文件系統，對外提供的就是存取服務。

現實的存取場景

例如你到火車站使用寄存服務：存行李的時候，是不是要登記一些個人信息？對吧，至少自己名字要寫上。可能還會給你一個牌子，讓你掛手上，這個東西就是為了標示每一個唯一的行李。

取行李的時候，要報自己名字，有牌子的給他牌子，然后工作人員才能去特定的位置找到你的行李

划重點：存的時候必須記錄一些關鍵信息（記錄ID、給身份牌），取的時候才能正確定位到。

文件系統

回到我們的文件系統，對比上面的行李存取行為，可以做個簡單的類比；

登記名字就是在文件系統記錄文件名；
生成的牌子就是元數據索引；
你的行李就是文件；
寄存室就是磁盤（容納東西的物理空間）；
管理員整套運行機制就是文件系統；

上面的對應並不是非常嚴謹，僅僅是幫助大家理解文件系統而已，讓大家知道其實文件系統是非常朴實的一個東西，思想都來源於生活。另外，Java 系列面試題和答案全部整理好了，微信搜索Java技術棧，在后台發送：面試，可以在線閱讀。

空間管理

現在思考文件系統是怎么管理空間的？
如果，一個連續的大磁盤空間給你使用，你會怎么使用這段空間呢？直觀的一個想法，我把進來的數據就完整的放進去。

這種方式非常容易實現，屬於眼前最簡單，以后最麻煩的方式。因為會造成很多空洞，明明還有很多空間位置，但是由於整個太大，形狀不合適（數據大小），哪里都放不下。因為你要放一個完整的空間。怎么改進？有人會想，既然整個放不進去，那就剁碎了唄。這里塞一點，那里塞一點，就塞進去了。對，思路完全正確。改進的方式就是切分，把空間按照一定粒度切分。每個小粒度的物理塊命名為 Block，每個 Block 一般是 4K 大小，用戶數據存到文件系統里來自然也是要切分，存儲到磁盤上各個角落。

圖示標號表示這個完整對象的 Block 的序號，用來復原對象用的。隨之而來又有一個問題：你光會切成塊還不行，取文件數據的時候，還得把它們給組合起來才行。所以，要有一個表記錄文件對應所有 Block 的位置，這個表被文件系統稱為inode。推薦一個 Spring Boot 基礎教程及實戰示例：https://www.javastack.cn/categories/Spring-Boot/寫文件的流程是這樣的：

先寫數據：數據先按照 Block 粒度存儲到磁盤的各個位置；
再寫元數據：然后把 Block 所在的各個位置保存起來，即inode（我用一本書來表示）；

讀文件流程則是：

先讀inode，找到各個 Block 的位置；
然后讀數據，構造一個完整的文件，給到用戶；

inode/block 概念

好，我們現在來看看inode，直觀地感受一下：

這個inode有文件元數據和Block數組（長度是15），數組中前兩項指向Block 3和Block 11，表示數據在這兩個塊中存着。 Spring Boot 學習筆記，分享給你。你肯定會意識到：Block數組只有15個元素，每個Block是4K，難道一個文件最大只能是 15 * 4K = 60 K ? 這是絕對不行的！最簡單的辦法就是：把這個Block數組長度給擴大！比如我們想讓文件系統最大支持100G的文件，Block數組需要這么長：(100*1024*1024)/4 = 26214400Block數組中每一項是4個字節，那就需要(26214400*4)/1024/1024 = 100M 為了支持100G的文件，我們的Block數組本身就得100M ！並且對每個文件都是如此！即使這個文件只有1K！ 這將是巨大浪費！肯定不能這么干，解決方案就是間接索引，按照約定，把這 15 個槽位分作 4 個不同類別來用：

前 12 個槽位（也就是 0 - 11 ）我們成為直接索引；
第 13 個位置，我們稱為 1 級索引；
第 14 個位置，我們稱為 2 級索引；
第 15 個位置，我們稱為 3 級索引；

直接索引：能存 12 個 block 編號，每個 block 4K，就是 48K，也就是說，48K 以內的文件，前 12 個槽位存儲編號就能完全 hold 住。

一級索引：也就是說這里存儲的編號指向的 block 里面存儲的也是 block 編號，里面的編號指向用戶數據。一個 block 4K，每個元素 4 字節，也就是有 1024 個編號位置可以存儲。所以，一級索引能尋址 4M（1024 * 4K）空間。

二級索引：二級索引是在一級索引的基礎上多了一級而已，換算下來，有了 4M 的空間用來存儲用戶數據的編號。所以二級索引能尋址 4G (4M/4 * 4K) 的空間。

三級索引：三級索引是在二級索引的基礎上又多了一級，也就是說，有了 4G 的空間來存儲用戶數據的 block 編號。所以二級索引能尋址 4T （4G/4 * 4K）的空間。

所以，在這種文件系統（如ext2）上，通過這種間接塊索引的方式，最大能支撐的文件大小 = 48K + 4M + 4G + 4T ，約等於 4 T。這種多級索引尋址性能表現怎么樣？在不超過 12 個數據塊的小文件的尋址是最快的，訪問文件中的任意數據理論只需要兩次讀盤，一次讀 inode，一次讀數據塊。訪問大文件中的數據則需要最多五次讀盤操作：inode、一級間接尋址塊、二級間接尋址塊、三級間接尋址塊、數據塊。

為什么cp那么快？

接下來我們要寫入一個奇怪的文件，這個文件很大，但是真正的數據只有8K：在[0,4K]這位置有4K的數據在[1T , 1T+4K] 處也有4K數據中間沒有數據，這樣的文件該如何寫入硬盤？

創建一個文件，這個時候分配一個 inode；
在 [ 0，4K ] 的位置寫入 4K 數據，這個時候只需要一個 block，把這個編號寫到 block[0] 這個位置保存起來；
在 [ 1T，1T+4K ] 的位置寫入 4K 數據，這個時候需要分配一個 block，因為這個位置已經落到三級索引才能表現的空間了，所以需要還需要分配出 3 個索引塊；
寫入完成，close 文件；

實際存儲如圖：

這個時候，我們的文件看起來是超大文件，size 等於 1T+4K ，但里面實際的數據只有 8 K，位置分別是 [ 0，4K ] ，[ 1T，1T+4K ]。由於沒寫數據的地方不用分配物理block塊，所以實際占用的物理空間只有8K。
重點：文件 size 只是 inode 里面的一個屬性，實際物理空間占用則是要看用戶數據放了多少個 block ，沒寫數據的地方不用分配物理block塊。這樣的文件其實就是稀疏文件，它的邏輯大小和實際物理空間是不相等的。 所以當我們用cp命令去復制一個這樣的文件時，那肯定迅速就完成了。

總結

好，我們再深入思考下，文件系統為什么能做到這一點？

首先，最關鍵的是把磁盤空間切成離散的、定長的 block 來管理；
然后，通過 inode 能查找到所有離散的數據（保存了所有的索引）；
最后，實現索引塊和數據塊空間的后分配；

這三點是層層遞進的。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 上傳大文件(100G)的解決方案 windows系統C盤顯示100G已用完，全選所有的文件夾查看卻只有50G？ SQLserver 導入超大CSV（100G以上）方法 Mac 系統占用100g的解決辦法 100G！騰訊雲首發搭載100G超高性能網絡的第六代雲服務器福利：100G Java全套學習視頻免費送了基於單XCVU9P+雙DSP C6678的雙FMC接口 100G光纖傳輸加速計算卡 springboot打包成jar之后,怎么做到不重新打包修改他的配置文件 Spring Boot的自動配置，到底是怎么做到？ iTextSharp 116秒處理6G的文件