本文實際上是《Unity Shader入門精要》一書的讀書筆記,書中關於渲染流水線的講解清楚易懂,非常適合作為Shader學習的入門書籍。自知好記性不如爛筆頭,遂將相關內容再結合自己的一些理解寫作這篇博客記錄下來。
我們將圖像繪制的流程稱為渲染流水線,是由CPU和GPU協作完成的。一般一個渲染流程可以分成3個概念階段,分別是:應用階段(Application Stage),幾何階段(Geometry Stage),光柵化階段(Rasterizer Stage)。
應用階段
應用階段是在CPU中進行的,主要任務是准備好場景數據,設置好渲染狀態,然后輸出渲染圖元,即為下一階段提供所需的幾何信息。什么是圖元?圖元是指渲染的基本圖形,通俗來講圖元可以是頂點,線段,三角面等,復雜的圖形可以通過渲染多個三角形來實現。
應用階段可細分為3個子階段
- 把數據加載到顯存中。所有渲染所需的數據都需要從硬盤加載到系統內存中(RAM),然后網格和紋理等數據又被加載到顯存(VRAM)。這是因為顯卡對於顯存的訪問速度更快,而且大多數顯卡對於RAM沒有直接的訪問權利。
- 設置渲染狀態。比如設置使用的着色器,材質,紋理,光源屬性等。
- 調用Draw Call。Draw Call就是一個命令,它的發起方是CPU,接收方是GPU。這個命令僅僅會指向一個需要被渲染的圖元列表,而不會再包含任何材質信息,這是因為我們已經在上一個階段設置過了。當給定了一個Draw Call時,GPU就會根據渲染狀態和所有輸入的頂點數據來進行計算,最終輸出成屏幕上顯示的那些漂亮的像素。
幾何階段
幾何階段是在GPU上進行的,主要任務是輸出屏幕空間的頂點信息。幾何階段用於處理從上一階段接收到的待繪制物體的幾何數據(可以理解為Draw Call指向的圖元列表),與每個渲染圖元打交道,進行逐頂點,逐多邊形的操作。幾何階段的一個重要任務就是把頂點坐標變換到屏幕空間中,再交給光柵化器進行處理。通過對輸入的圖元進行多步處理后,這一階段將會輸出屏幕空間的二維頂點坐標,每個頂點對應的深度值,着色等相關信息。
光柵化階段
這一階段也是在GPU上執行的,將會使用上個階段傳遞的數據來產生屏幕上的像素,並輸出最終的圖像。光柵化的任務主要是決定每個渲染圖元中的哪些像素應該被繪制在屏幕上。它需要對上一個階段得到的逐頂點數據(例如紋理坐標,頂點顏色等)進行插值,然后再進行逐像素處理。可以這樣理解,幾何階段只是得到了圖元頂點的相關信息,例如對於三角形圖元,得到的就是三個頂點的坐標和顏色信息等。而光柵化階段要做的就是根據這三個頂點,計算出這個三角形覆蓋了哪些像素,並為這些像素通過插值計算出它們的顏色。
GPU渲染流水線(幾何階段和光柵化階段)
綠色表示完全可編程控制,黃色表示可配置,藍色表示由GPU固定實現,不可修改。實線表示必須由開發者編程實現,虛線表示該Shader是可選的。下面我們將分別介紹上圖中的主要子階段。
(順便提一下,曲面細分着色器可用於細分圖元,例如將三角面細分成更小的三角面來添加幾何細節。幾何着色器可決定輸出的圖元類型和個數,當輸出的圖元減少時,實際上起到了裁剪的作用,當輸出的圖元增多或類型改變時,起到了產生或改變圖元的作用)
頂點着色器
頂點着色器的處理單位是頂點,輸入進來的每個頂點都會調用一次頂點着色器。頂點着色器本身不可以創建或者銷毀任何頂點,而且無法得到頂點和頂點之間的關系,例如我們無法得知兩個頂點是否屬於同一個三角網格。但正因為這樣的相互獨立性,GPU可以利用本身的特性並行化處理每一個頂點,這意味着這一階段的處理速度會很快。
頂點着色器完成的工作主要有:坐標變換和逐頂點光照。
頂點着色器必須進行頂點的坐標變換,需要時還可以計算和輸出頂點的顏色。例如我們可能需要進行逐頂點的光照。
坐標變換,就是對頂點的坐標進行某種變換。頂點着色器可以在這一步中改變頂點的位置,這在頂點動畫中是非常有用的。無論我們在頂點着色器中怎樣改變頂點的位置,一個基本的頂點着色器必須要完成的一個工作是,把頂點坐標從模型空間轉換到齊次裁剪空間。
把頂點坐標轉換到齊次裁剪空間后,接着通常再由硬件做透視除法,最終得到歸一化的設備坐標(NDC)。
裁剪
裁剪階段的目的是將那些不在攝像機視野內的頂點裁減掉,並剔除某些三角圖元的面片(面片通常是由一個一個更小的圖元來構成的)。
一個圖元和攝像機視野的關系有3種:完全在視野內,部分在視野內,完全在視野外。完全在視野內的圖元就繼續傳遞給下一個流水線階段,完全在視野外的圖元不會繼續向下傳遞,因為它們不需要被渲染。而那些部分在視野內的圖元需要被裁剪。例如,一條線段的頂點在視野內,而另一個頂點不在視野內,那么在視野外部的頂點應該使用一個新的頂點來代替,這個新的頂點位於這條線段和視野邊界的交點處。
屏幕映射
這一步輸入的坐標仍然是三維坐標系下的坐標(范圍在單位立方體內)。屏幕映射的任務是把每個圖元的x和y坐標轉換到屏幕坐標系下,這實際上是一個縮放的過程。屏幕坐標系是一個二維坐標系,它和我們用於顯示畫面的分辨率有很大關系。
屏幕映射得到的屏幕坐標決定了這個頂點對應屏幕上哪個像素以及距離這個像素有多遠。
屏幕映射不會對輸入的z坐標做任何處理。實際上,屏幕坐標系和z坐標一起構成了窗口坐標系。這些值會被一起傳遞到光柵化階段。
三角形設置
這個階段會計算光柵化一個三角網格所需的信息。具體來說,上一個階段輸出的都是三角網格的頂點,但如果要得到整個三角網格對像素的覆蓋情況,我們就必須計算每條邊上的像素坐標。為了能夠計算邊界像素的坐標信息,我們就需要得到三角形邊界的表示方式。這樣一個計算三角網格表示數據的過程就叫做三角形設置。它的輸出是為了給下一個階段做准備。
三角形遍歷
三角形遍歷階段將會檢查每個像素是否被一個三角網格所覆蓋。如果被覆蓋的話,就會生成一個片元。而這樣一個找到哪些像素被三角網格覆蓋的過程就是三角形遍歷,這個階段也被稱為掃描變換。
三角形遍歷階段會根據上一個階段的計算結果來判斷一個三角網格覆蓋了哪些像素,並使用三角網格3個頂點的頂點信息對整個覆蓋區域的像素進行插值。像素和片元是一一對應的,每個像素都會生成一個片元,片元中的狀態記錄了對應像素的信息,是對三個頂點的信息進行插值得到的。
這一步的輸出就是得到一個片元序列。需要注意的是一個片元並不是真正意義上的像素,而是包含了很多狀態的集合,這些狀態用於計算每個像素的最終顏色。這些狀態包括了但不限於它的屏幕坐標,深度信息,以及其他從幾何階段輸出的頂點信息,例如法線,紋理坐標等。
片元着色器
片元着色器用於實現逐片元的着色操作,輸出是一個或者多個顏色值(即計算該片元對應像素的顏色,但不是最終顏色)。這一階段可以完成很多重要的渲染技術,其中最重要的技術之一就是紋理采樣。為了在片元着色器中進行紋理采樣,我們通常會在頂點着色器階段輸出每個頂點對應的紋理坐標,然后經過光柵化階段對三角網格的3個頂點對應的紋理坐標進行插值后,就可以得到其覆蓋的片元的紋理坐標了。
根據上一步插值后的片元信息,片元着色器計算該片元的輸出顏色
雖然片元着色器可以完成很多重要效果,但它的局限在於,它僅可以影響單個片元。也就是說,當執行片元着色器時,它不可以將自己的任何結果直接發送給它的鄰居們。當然導數信息例外。
逐片元操作
逐片元操作階段負責執行很多重要的操作,例如修改顏色,深度緩沖,進行混合等。
這一階段有幾個主要任務
- 決定每個片元的可見性。這涉及了很多測試工作,例如深度測試,模板測試等。
- 如果一個片元通過了所有的測試,就需要把這個片元的顏色值和已經存儲在顏色緩沖區中的顏色進行合並,或者說是混合。
一個片元,只有通過了所有的測試后,才能和顏色緩沖區中已經存在的像素顏色進行混合,最后再寫入顏色緩沖區。
模板測試
模板測試,可以作為一種丟棄片元的輔助方法,與之相關的是模板緩沖。如果開啟了模板測試,GPU會首先讀取(使用讀取掩碼)模板緩沖區中該片元位置的模板值,然后將該值和讀取到(使用讀取掩碼)的參考值進行比較,這個比較函數可以是由開發者指定的,例如小於時舍棄該片元,或者大於等於時舍棄。如果這個片元沒有通過這個測試,該片元就會被舍棄。不管一個片元有沒有通過模板測試,我們都可以根據模板測試和下面的深度測試結果來修改模板緩沖區,這個修改操作也是由開發者指定的。開發者可以設置不同結果下的修改操作,例如,在失敗時模板緩沖區保持不變,通過時將模板緩沖區中對應位置的值加1等。模板測試通常用於限制渲染的區域。另外模板測試還有一些更高級的用法,如渲染陰影,輪廓渲染等。
深度測試
如果開啟了深度測試,GPU會把該片元的深度值和已經存在於深度緩沖區中的深度值進行比較。這個比較函數也是由開發者設置的。通常如果這個片元的深度值大於等於當前深度緩沖區中的值,那么就會舍棄它。因為我們總想只顯示出離攝像機最近的物體,而那些被其他物體遮擋的就不需要出現在屏幕上。如果這個片元沒有通過這個測試,該片元就會被舍棄。和模板測試不同的是,如果一個片元沒有通過深度測試,它就沒有權利更改深度緩沖區中的值。而如果它通過了測試,開發者還可以指定是否要用這個片元的深度值覆蓋掉原有的深度值,這是通過開啟/關閉深度寫入來做到的。
混合
為什么需要混合?渲染過程是一個物體接着一個物體畫到屏幕上的。而每個像素的顏色信息被存儲在一個名為顏色緩沖的地方。因此,當我們執行這次渲染時,顏色緩沖中往往已經有了上次渲染之后的顏色結果,那么我們是使用這次渲染得到的顏色完全覆蓋掉之前的結果,還是進行其他處理?這就是混合需要解決的問題。
對於不透明物體,開發者可以關閉混合操作。但對於不透明物體,我們就需要使用混合操作來讓這個物體看起來是透明的。
使用混合函數來進行混合操作。混合函數通常和透明通道息息相關,例如根據透明通道的值進行相加,相減,相乘等。
需要注意的是,上面給出的測試順序並不是唯一的,對於大多數GPU來說,它們會盡可能在執行片元着色器之前就進行這些測試。但是,如果將這些測試提前的話,其檢驗結果可能會與片元着色器中的一些操作沖突。例如,如果我們在片元着色器進行了透明度測試,而這個片元沒有通過透明度測試,我們會通過調用API來手動將其舍棄掉。這就導致GPU無法提前執行各種操作。因此現代的GPU會判斷片元着色器中的操作是否和提前測試發生沖突,如果有沖突,就會禁用提前測試。但是,這樣也會造成性能上的下降,因為有更多片元需要被處理了。這也是透明度測試會導致性能下降的原因。