筆者在《Docker 基礎 : 鏡像》一文中介紹了 docker 鏡像的基本用法,本文我們來介紹 docker 鏡像背后的技術原理。
什么是 docker 鏡像
docker 鏡像是一個只讀的 docker 容器模板,含有啟動 docker 容器所需的文件系統結構及其內容,因此是啟動一個 docker 容器的基礎。docker 鏡像的文件內容以及一些運行 docker 容器的配置文件組成了 docker 容器的靜態文件系統運行環境:rootfs。可以這么理解,docker 鏡像是 docker 容器的靜態視角,docker 容器是 docker 鏡像的運行狀態。我們可以通過下圖來理解 docker daemon、docker 鏡像以及 docker 容器三者的關系(此圖來自互聯網):
從上圖中我們可以看到,當由 ubuntu:14.04 鏡像啟動容器時,ubuntu:14.04 鏡像的鏡像層內容將作為容器的 rootfs;而 ubuntu:14.04 鏡像的 json 文件,會由 docker daemon 解析,並提取出其中的容器執行入口 CMD 信息,以及容器進程的環境變量 ENV 信息,最終初始化容器進程。當然,容器進程的執行入口來源於鏡像提供的 rootfs。
rootfs
rootfs 是 docker 容器在啟動時內部進程可見的文件系統,即 docker 容器的根目錄。rootfs 通常包含一個操作系統運行所需的文件系統,例如可能包含典型的類 Unix 操作系統中的目錄系統,如 /dev、/proc、/bin、/etc、/lib、/usr、/tmp 及運行 docker 容器所需的配置文件、工具等。
在傳統的 Linux 操作系統內核啟動時,首先掛載一個只讀的 rootfs,當系統檢測其完整性之后,再將其切換為讀寫模式。而在 docker 架構中,當 docker daemon 為 docker 容器掛載 rootfs 時,沿用了 Linux 內核啟動時的做法,即將 rootfs 設為只讀模式。在掛載完畢之后,利用聯合掛載(union mount)技術在已有的只讀 rootfs 上再掛載一個讀寫層。這樣,可讀寫的層處於 docker 容器文件系統的最頂層,其下可能聯合掛載了多個只讀的層,只有在 docker 容器運行過程中文件系統發生變化時,才會把變化的文件內容寫到可讀寫層,並隱藏只讀層中的舊版本文件。
Docker 鏡像的主要特點
為了更好的理解 docker 鏡像的結構,下面介紹一下 docker 鏡像設計上的關鍵技術。
分層
docker 鏡像是采用分層的方式構建的,每個鏡像都由一系列的 "鏡像層" 組成。分層結構是 docker 鏡像如此輕量的重要原因。當需要修改容器鏡像內的某個文件時,只對處於最上方的讀寫層進行變動,不覆寫下層已有文件系統的內容,已有文件在只讀層中的原始版本仍然存在,但會被讀寫層中的新版本所隱藏。當使用 docker commit 提交這個修改過的容器文件系統為一個新的鏡像時,保存的內容僅為最上層讀寫文件系統中被更新過的文件。分層達到了在不的容器同鏡像之間共享鏡像層的效果。
寫時復制
docker 鏡像使用了寫時復制(copy-on-write)的策略,在多個容器之間共享鏡像,每個容器在啟動的時候並不需要單獨復制一份鏡像文件,而是將所有鏡像層以只讀的方式掛載到一個掛載點,再在上面覆蓋一個可讀寫的容器層。在未更改文件內容時,所有容器共享同一份數據,只有在 docker 容器運行過程中文件系統發生變化時,才會把變化的文件內容寫到可讀寫層,並隱藏只讀層中的老版本文件。寫時復制配合分層機制減少了鏡像對磁盤空間的占用和容器啟動時間。
內容尋址
在 docker 1.10 版本后,docker 鏡像改動較大,其中最重要的特性便是引入了內容尋址存儲(content-addressable storage) 的機制,根據文件的內容來索引鏡像和鏡像層。與之前版本對每個鏡像層隨機生成一個 UUID 不同,新模型對鏡像層的內容計算校驗和,生成一個內容哈希值,並以此哈希值代替之前的 UUID 作為鏡像層的唯一標識。該機制主要提高了鏡像的安全性,並在 pull、push、load 和 save 操作后檢測數據的完整性。另外,基於內容哈希來索引鏡像層,在一定程度上減少了 ID 的沖突並且增強了鏡像層的共享。對於來自不同構建的鏡像層,主要擁有相同的內容哈希,也能被不同的鏡像共享。
聯合掛載
通俗地講,聯合掛載技術可以在一個掛載點同時掛載多個文件系統,將掛載點的原目錄與被掛載內容進行整合,使得最終可見的文件系統將會包含整合之后的各層的文件和目錄。實現這種聯合掛載技術的文件系統通常被稱為聯合文件系統(union filesystem)。以下圖所示的運行 Ubuntu:14.04 鏡像后的容器中的 aufs 文件系統為例:
由於初始掛載時讀寫層為空,所以從用戶的角度看,該容器的文件系統與底層的 rootfs 沒有差別;然而從內核的角度看,則是顯式區分開來的兩個層次。當需要修改鏡像內的某個文件時,只對處於最上方的讀寫層進行了變動,不復寫下層已有文件系統的內容,已有文件在只讀層中的原始版本仍然存在,但會被讀寫層中的新版本文件所隱藏,當 docker commit 這個修改過的容器文件系統為一個新的鏡像時,保存的內容僅為最上層讀寫文件系統中被更新過的文件。
聯合掛載是用於將多個鏡像層的文件系統掛載到一個掛載點來實現一個統一文件系統視圖的途徑,是下層存儲驅動(aufs、overlay等) 實現分層合並的方式。所以嚴格來說,聯合掛載並不是 docker 鏡像的必需技術,比如在使用 device mapper 存儲驅動時,其實是使用了快照技術來達到分層的效果。
Docker 鏡像的存儲組織方式
綜合考慮鏡像的層級結構,以及 volume、init-layer、可讀寫層這些概念,一個完整的、在運行的容器的所有文件系統結構可以用下圖來描述:
從圖中我們不難看到,除了 echo hello 進程所在的 cgroups 和 namespace 環境之外,容器文件系統其實是一個相對獨立的組織。可讀寫部分(read-write layer 以及 volumes)、init-layer、只讀層(read-only layer) 這 3 部分結構共同組成了一個容器所需的下層文件系統,它們通過聯合掛載的方式巧妙地表現為一層,使得容器進程對這些層的存在一無所知。
Docker 鏡像中的關鍵概念
registry
我們知道,每個 docker 容器都要依賴 docker 鏡像。那么當我們第一次使用 docker run 命令啟動一個容器時,是從哪里獲取所需的鏡像呢?答案是,如果是第一次基於某個鏡像啟動容器,且宿主機上並不存在所需的鏡像,那么 docker 將從 registry 中下載該鏡像並保存到宿主機。如果宿主機上存在該鏡像,則直接使用宿主機上的鏡像完成容器的啟動。那么 registry 是什么呢?
registry 用以保存 docker 鏡像,其中還包括鏡像層次結構和關於鏡像的元數據。可以將 registry 簡單的想象成類似於 Git 倉庫之類的實體。
用戶可以在自己的數據中心搭建私有的 registry,也可以使用 docker 官方的公用 registry 服務,即 Docker Hub。它是由 Docker 公司維護的一個公共鏡像庫。Docker Hub 中有兩種類型的倉庫,即用戶倉庫(user repository) 與頂層倉庫(top-level repository)。用戶倉庫由普通的 Docker Hub 用戶創建,頂層倉庫則由 Docker 公司負責維護,提供官方版本鏡像。理論上,頂層倉庫中的鏡像經過 Docker 公司驗證,被認為是架構良好且安全的。
repository
repository 由具有某個功能的 docker 鏡像的所有迭代版本構成的鏡像組。Registry 由一系列經過命名的 repository 組成,repository 通過命名規范對用戶倉庫和頂層倉庫進行組織。所謂的頂層倉庫,其其名稱只包含倉庫名,如:
而用戶倉庫的表示類似下面:
可以看出,用戶倉庫的名稱多了 "用戶名/" 部分。
比較容易讓人困惑的地方在於,我們經常把 mysql 視為鏡像的名稱,其實 mysql 是 repository 的名稱。repository 是一個鏡像的集合,其中包含了多個不同版本的鏡像,這些鏡像之間使用標簽進行版本區分,如 mysql:5.6、mysql:5.7 等,它們均屬於 mysql 這個 repository。
簡單來說,registry 是 repository 的集合,repository 是鏡像的集合。
manifest
manifest(描述文件)主要存在於 registry 中作為 docker 鏡像的元數據文件,在 pull、push、save 和 load 過程中作為鏡像結構和基礎信息的描述文件。在鏡像被 pull 或者 load 到 docker 宿主機時,manifest 被轉化為本地的鏡像配置文件 config。在我們拉取鏡像時顯示的摘要(Digest):
就是對鏡像的 manifest 內容計算 sha256sum 得到的。
image 和 layer
docker 內部的 image 概念是用來存儲一組鏡像相關的元數據信息,主要包括鏡像的架構(如 amd64)、鏡像默認配置信息、構建鏡像的容器配置信息、包含所有鏡像層信息的 rootfs。docker 利用 rootfs 中的 diff_id 計算出內容尋址的索引(chainID) 來獲取 layer 相關信息,進而獲取每一個鏡像層的文件內容。
layer(鏡像層) 是 docker 用來管理鏡像層的一個中間概念。我們前面提到,鏡像是由鏡像層組成的,而單個鏡像層可能被多個鏡像共享,所以 docker 將 layer 與 image 的概念分離。docker 鏡像管理中的 layer 主要存放了鏡像層的 diff_id、size、cache-id 和 parent 等內容,實際的文件內容則是由存儲驅動來管理,並可以通過 cache-id 在本地索引到。
Dockerfile
Dockerfile 是通過 docker build 命令構建 docker 鏡像時用到的配置文件。它允許用戶使用基本的 DSL 語法來定義 docker 鏡像,其中的每一條指令描述一個構建鏡像的步驟。更多關於 Dockerfile 信息請參考筆者的文章《Docker 基礎 : Dockerfile》。
總結
本文我們介紹了實現 docker 鏡像的技術原理,希望可以加深大家對 docker 鏡像的理解。
參考:
《docker 容器與容器雲》