用FPGA做圖像處理最關鍵的一點優勢就是:FPGA能進行實時流水線運算,能達到最高的實時性。因此在一些對實時性要求非常高的應用領域,做圖像處理基本就只能用FPGA。例如在一些分選設備中圖像處理基本上用的都是FPGA,因為在其中相機從看到物料圖像到給出執行指令之間的延時大概只有幾毫秒,這就要求圖像處理必須很快且延時固定,只有FPGA進行的實時流水線運算才能滿足這一要求。
所以要了解FPGA進行圖像處理的優勢就必須理解FPGA所能進行的實時流水線運算和DSP,GPU等進行的圖像處理運算有何不同。DSP,GPU,CPU對圖像的處理基本是以幀為單位的,從相機采集的圖像數據會先存在內存中,然后GPU會讀取內存中的圖像數據進行處理。假如采集圖像的幀率是30幀,那么DSP,GPU要是能在1/30秒內完成一幀圖像的處理,那基本上就能算是實時處理。
FPGA對圖像進行實時流水線運算是以行為單位的。FPGA可以直接和圖像傳感器芯片連接獲得圖像數據流,如果是RAW格式的則還可以進行差值以獲得RGB圖像數據。FPGA能進行實時流水線處理的關鍵是它可以用其內部的Block Ram緩存若干行的圖像數據。這個Block Ram可以說是類似於CPU里面的Cache,但Cache不是你能完全控制的,但Block Ram是完全可控的,可以用它實現各種靈活的運算處理。這樣FPGA通過緩存若干行圖像數據就可以對圖像進行實時處理,數據就這樣一邊流過就一邊處理好了,不需要送入DDR緩存了之后再讀出來處理。
這樣的數據流處理顯然是順序讀取數據的,那么也就只能實現那些順序讀取數據的算法,也就是圖像處理中那一大類用3x3到NxN的算子進行的濾波、取邊緣、膨脹腐蝕等算法。可能大家會覺得這些運算似乎都是最基本的圖像處理運算,只是個前端的預處理,似乎用處不大。但問題是只有FPGA做這樣的運算才是速度最快效率最高的,比如用CPU做一個取邊緣的算法根本就達不到實時。另外別小看了這種NxN算子法,它可以有各種組合和玩法,可以實現分選多種顏色,甚至分辨簡單形狀等功能。FPGA進行的這種算子法處理是並行流水線算法,其延時是固定的,比如用3x3的算子進行處理其給出結果的延時是兩行圖像的時間。還有這個算子法和現在卷積神經網絡中最前面的卷積層運算是類似的。
FPGA中的Block Ram是重要和稀缺資源,能緩存的圖像數據行數是有限的,所以這個NxN的算子中的N不能特別大。當然FPGA也可以接DDR把圖像緩存到其中再讀出來進行處理,但這種處理模式就和CPU差不多了,達不到最高的實時性。其實有些我們認為需要隨機讀取數據的圖像處理算法也是可以並行流水線化的。
在密集運算中,耽誤時間和消耗功耗的操作往往不是運算本身,而是把數據從內存中搬來搬去。GPU,CPU在進行運算時要把數據從內存中取出來,算好了在放回去。這樣內存帶寬往往成了運算速度的瓶頸,數據搬運過程中的功耗占的比重也不會小。FPGA則可以通過堆很多計算硬件的方法把要做的運算都展開,然后數據從中流過,完成一個階段的運算之后就直接流入第二個階段,不需要把一個計算階段完成后的數據再送回內存中,再讀出來交給下一個階段的運算。這樣就會節省很多時間和功耗。現在用FPGA做圖像處理就是這樣干的,比如先用一個3x3的算子進行濾波,再用一個3x3的算子進行取邊緣,在FPGA流水線算法中,濾波處理完了數據立即就會進行取邊緣處理,是不需要像CPU那樣存回內存再讀出來的。
FPGA進行圖像處理的前景還是挺廣闊的,越來越多的工業應用場合都要求更高的實時性,而這正是FPGA所適合的。還有機器學習領域,神經網絡這種層狀的,不需要很隨機的讀取數據的運算是比較適合用FPGA來做的。不過FPGA不擅長浮點運算,如果能整出不需要浮點運算的神經網絡,那么FPGA在這方面的應用將會更大。
前些年用matlab和opencv做圖像處理。近一段時間通過FPGA處理攝像頭視頻數據,有太多感觸,復雜的算法先不提及,單是上面文章中提到的一些處理手段及策略,非常受用。
感謝來自知乎網的圖像處理討論。非常受益!
版權所有權歸卿萃科技 杭州FPGA事業部,轉載請注明出處
作者:杭州卿萃科技ALIFPGA
原文地址:杭州卿萃科技FPGA極客空間 微信公眾號
掃描二維碼關注杭州卿萃科技FPGA極客空間