virtio 是一種 I/O 半虛擬化解決方案,是一套通用 I/O 設備虛擬化的程序,是對半虛擬化 Hypervisor 中的一組通用 I/O 設備的抽象。提供了一套上層應用與各 Hypervisor 虛擬化設備(KVM,Xen,VMware等)之間的通信框架和編程接口,減少跨平台所帶來的兼容性問題,大大提高驅動程序開發效率。
為什么是 virtio
在完全虛擬化的解決方案中,guest VM 要使用底層 host 資源,需要 Hypervisor 來截獲所有的請求指令,然后模擬出這些指令的行為,這樣勢必會帶來很多性能上的開銷。半虛擬化通過底層硬件輔助的方式,將部分沒必要虛擬化的指令通過硬件來完成,Hypervisor 只負責完成部分指令的虛擬化,要做到這點,需要 guest 來配合,guest 完成不同設備的前端驅動程序,Hypervisor 配合 guest 完成相應的后端驅動程序,這樣兩者之間通過某種交互機制就可以實現高效的虛擬化過程。
由於不同 guest 前端設備其工作邏輯大同小異(如塊設備、網絡設備、PCI設備、balloon驅動等),單獨為每個設備定義一套接口實屬沒有必要,而且還要考慮擴平台的兼容性問題,另外,不同后端 Hypervisor 的實現方式也大同小異(如KVM、Xen等),這個時候,就需要一套通用框架和標准接口(協議)來完成兩者之間的交互過程,virtio 就是這樣一套標准,它極大地解決了這些不通用的問題。
virtio 的架構
從總體上看,virtio 可以分為四層,包括前端 guest 中各種驅動程序模塊,后端 Hypervisor (實現在Qemu上)上的處理程序模塊,中間用於前后端通信的 virtio 層和 virtio-ring 層,virtio 這一層實現的是虛擬隊列接口,算是前后端通信的橋梁,而 virtio-ring 則是該橋梁的具體實現,它實現了兩個環形緩沖區,分別用於保存前端驅動程序和后端處理程序執行的信息。
嚴格來說,virtio 和 virtio-ring 可以看做是一層,virtio-ring 實現了 virtio 的具體通信機制和數據流程。或者這么理解可能更好,virtio 層屬於控制層,負責前后端之間的通知機制(kick,notify)和控制流程,而 virtio-vring 則負責具體數據流轉發。
virtio 數據流交互機制
vring 主要通過兩個環形緩沖區來完成數據流的轉發,如下圖所示。
vring 包含三個部分,描述符數組 desc,可用的 available ring 和使用過的 used ring。
desc 用於存儲一些關聯的描述符,每個描述符記錄一個對 buffer 的描述,available ring 則用於 guest 端表示當前有哪些描述符是可用的,而 used ring 則表示 host 端哪些描述符已經被使用。
Virtio 使用 virtqueue 來實現 I/O 機制,每個 virtqueue 就是一個承載大量數據的隊列,具體使用多少個隊列取決於需求,例如,virtio 網絡驅動程序(virtio-net)使用兩個隊列(一個用於接受,另一個用於發送),而 virtio 塊驅動程序(virtio-blk)僅使用一個隊列。
具體的,假設 guest 要向 host 發送數據,首先,guest 通過函數 virtqueue_add_buf 將存有數據的 buffer 添加到 virtqueue 中,然后調用 virtqueue_kick 函數,virtqueue_kick 調用 virtqueue_notify 函數,通過寫入寄存器的方式來通知到 host。host 調用 virtqueue_get_buf 來獲取 virtqueue 中收到的數據。
存放數據的 buffer 是一種分散-聚集的數組,由 desc 結構來承載,如下是一種常用的 desc 的結構
當 guest 向 virtqueue 中寫數據時,實際上是向 desc 結構指向的 buffer 中填充數據,完了會更新 available ring,然后再通知 host。
當 host 收到接收數據的通知時,首先從 desc 指向的 buffer 中找到 available ring 中添加的 buffer,映射內存,同時更新 used ring,並通知 guest 接收數據完畢。
總結:
virtio 是 guest 與 host 之間通信的潤滑劑,提供了一套通用框架和標准接口或協議來完成兩者之間的交互過程,極大地解決了各種驅動程序和不同虛擬化解決方案之間的適配問題。
virtio 抽象了一套 vring 接口來完成 guest 和 host 之間的數據收發過程,結構新穎,接口清晰。