一些卷積概念和圖解


RGB 3通道卷積

推薦一個鏈接(用Excel實現多種維度的卷積):https://medium.com/apache-mxnet/multi-channel-convolutions-explained-with-ms-excel-9bbf8eb77108

其中3維卷積是這樣的:
3d

我以前的錯誤理解:如果輸出通道只有1個,那么就只有1個卷積核(例如3x3,也就是9個參數)。然后該卷積核對輸入3通道分別卷積,得到3張特征圖,pixel-wise相加即可。

錯誤的地方:如果輸入是RGB 3通道,那么就有3個卷積核!實際上有3x3x3=27個參數。

PyTorch的官方文檔驗證了這一點:

其中weight不僅與輸出通道index有關,還與輸入通道index有關。即,如果有inC個輸入通道,inO個輸出通道,那么就有inC x inO個卷積核(也就是權重矩陣)。

3D卷積

3D卷積的卷積核有3個維度。在上面的2D卷積中,輸入通道數為3,就相當於完成了一次卷積核尺寸為(3,3,3)的3D卷積。

顯然,3D卷積增加了靈活度:我們可以要求3D卷積核尺寸為(3,3,2),那么就會產生2個輸出通道(1和2通道產生1個,2和3通道產生1個),而不再是像2D卷積一樣恆輸出一個通道。
而且3D卷積參數相對較小?因為這個3D核不斷在復用。

合理性:比如處理視頻幀,每一幀的編碼邏輯是一樣的,因此用相同的卷積核有合理性。

空洞卷積

空洞的目的是捕捉long-term依賴,略微克服local conv的局限性。

根據MixConv報告,這種空洞卷積的空洞不能太大(不能超過2),否則會導致性能劇降。可能的原因是過於空洞導致local信息比較殘缺。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM