作者:周仲凱
點擊上方“3D視覺工坊”,選擇“星標”干貨第一時間送達
計算機視覺三大國際頂級會議之一的 ECCV 2020 已經召開。今年 ECCV 共收到有效投稿 5025 篇,是 ECCV 2018 論文投稿數量的二倍還要多,接收論文1361 篇,接收率為 27%,相比上屆會議下降了約 5%。在接收論文中,oral論文數為 104 篇,占有效投稿總數的 2%,spotlight 論文數目為 161 篇,占比約 3%。其中,最佳論文獎由普林斯頓大學 Zachary Teed 和 Jia Deng 摘得,論文題名為RAFT: Recurre-nt All-Pairs Field Transforms for Optical Flow。論文提出的RAFT模型由於其卓越的泛化能力,成為最新的光流baseline模型:該模型在KITTI在線評價指標中獲得5.10%的異常值比率,相比於當前公布的最佳模型提升了16%,且在MPI-Sintel在線評價指標中獲得2.855px的端點誤差,相比於當前公布的最佳模型提升了30%。本文首先將對光流的基本概念進行闡述,接着對RAFT光流計算模型的具體實施步驟以及對應的思路進行介紹與分析。
1 光流的基本概念
光流是運動物體或場景表面像素點在投影平面的二維瞬時速度,因此圖像序列對應的光流不僅攜帶其中運動目標與場景的運動信息,更包含了其結構信息。
圖1-1 光流可視化效果展示
圖1-1分別展示了光流計算技術在運動目標檢測中的應用,可以看到:精確的光流不僅可以給出連續圖像幀中每一像素點的運動信息,還可清晰地分割出運動目標輪廓,其中,通過不同的顏色區分運動方向,顏色的深淺定義運動矢量大小。
圖1-2光流計算技術應用
21世紀以來,隨着計算機計算的不斷提升,光流計算技術廣泛的應用於各種更高級的計算機視覺任務中。例如,圖1-2(a) 在針對視頻的人體行為識別的研究中,可利用人體行為的光流特征,增強在時空域中人體行為特征的表述能力,顯著降低異常值點對行為識別產生的不良影響。圖1-2(b) 在運動目標檢測與目標跟蹤的研究中:可根據光流檢測運動目標的結構、位移特性,減少運動目標之間的匹配時間消耗,提升在攝像機運動情況下,目標檢測、跟蹤的魯棒性。圖1-2(c) 在機器人導航避障的研究中,可利用光流針對圖像區域的矢量信息,獲得機器人前方區域的避障信息,提升機器人行動決策的精度。
2 RAFT光流計算模型
RAFT光流計算模型由特征提取模塊、context提取模塊、視覺相似性(Visual Similarity)計算模塊以及更新迭代模塊共同組成。下文將分別對RAFT光流計算模型中各模塊的計算流程以及原理進行分析介紹。
2.1 特征提取模塊與context提取模塊
特征提取模塊的作用為提取輸入第一幀、第二幀圖像中的特征,其中特征的分辨率為輸入圖像的1/8。Context提取模塊的作用同樣為提取特征,只不過只提取第一幀圖像的上下文信息特征,分辨率同樣為輸入圖像的1/8。在結構上,特征提取模塊context提取模塊的結構基本類似,區別有兩點:首先模塊中選擇的規范化層不同,特征提取模塊采用的為instance規划化技術,而context提取模塊采用的為batch規划化技術。其次特征提取模塊輸出單一的輸入圖像特征,而context提取模塊輸出兩份輸入的圖像特征。
2.2 視覺相似性(Visual Similarity)計算模塊
視覺相似性計算模塊的作用和2018cvpr光流領域經典論文PWC-Net的思想類似,區別便是,PWC-Net是在每一層特征金字塔中利用上層金字塔預測光流對當前層的第二幀圖像特征向第一幀圖像特征進行warp,然后對warp的第二幀圖像特征與原始第一幀圖像特征進行匹配獲得對應的cost volume,PWC-Net中cost volume的尺寸為[batch, d, h, w],例如[2,81,24,80],代表第一幀圖像特征中的每一個像素點,與warp后第二幀圖像中以這個像素點為中心的9x9鄰域范圍內的點做匹配(點乘操作),如上式所示,其中k=4,代表匹配的半徑長度為4,與分別代表第一幀圖像特征中的像素點與第二幀圖像特征中的像素點,總共對2個batch進行上述操作。
而RAFT中的視覺相似性計算模塊的計算流程是首先對第一幀圖像特征與第二幀圖像特征匹配獲得一個[batch, h, w, h, w]的cost volume,代表第一幀圖像中的每一個像素點,都與第二幀圖像特征中所有像素點進行匹配,總共進行batch次上述操作。匹配過程如下式所示,其中與分別為第一幀圖像特征與第二幀圖像特征,i,j,k,l分別為第一幀與第二幀圖像特征的高、寬索引, h為圖像特征的通道維度索引。RAFT在原始圖像分辨率1/8的圖像特征上通過迭代優化光流,光流的初始值設定為0,也就是說不產生移動,然后通過該光流索引上述尺寸為[batch, h, w, h, w]的cost volume(方便表示記作CT1),具體來說便是:在第一次迭代中,因為光流初始值為0,那么便利用上述CT1索引第二幀圖像中以當前像素點為中心的9x9鄰域范圍內點的匹配結果,后續迭代中,因光流迭代之后不為0,同樣進行上述索引,只不過需要在當前點上施加一個光流的位移,通過此操作獲得的cost volume記作CT2,尺寸為[batch, d, h, w],d與PWC-Net論文中的參數一樣,一般為81。通過上述操作便可使匹配范圍進一步擴大,進而在下文中將要提到的更新迭代模塊中求得殘差光流,用來補償初始光流。可通過Pooling操作獲得不同分辨率下的CT2,用來獲得局部以及整體的特征。
2.3 更新迭代模塊
更新迭代模塊的輸入由四部分組成:兩份context提取模塊輸出,CT2,以及上層迭代過程輸出的光流。該模塊利用GRU模塊以及卷積操作,計算出相對於上次迭代過程輸出光流的殘差光流,然后與上次迭代過程輸出光流進行相加用作補償。需要注意的是,該模塊中利用卷積操作學習上采樣權值,使當前1/8分辨率下的光流上采樣到與輸入圖像同尺寸,具體形式如下圖所示,其中w1-w9為利用卷積操作學習到的權重,也就是說,上采樣之后的光流結果中每一像素點的值都與其周圍的9個像素點有關。最后,輸出每一次迭代過程生成的全分辨率光流結果,用於損失函數計算,更新模型中的參數。
3 RAFT模型中的損失函數
RAFT模型中總共進行12次優化迭代,也就是說會產生12個全分辨率下的光流結果。迭代次數越多,光流計算精度越精確。RAFT模型采用的是監督算法,具體步驟可以表示為:通過求取12次光流迭代過程中的光流計算結果與光流真實值的L1范數,並且迭代的次數越多,對應L1范數結果的權值也就越大(說明該結果對整個損失函數的影響越大),如下式所示,其中,N=12。
4 總結
本文敘述了ECCV最佳論文RAFT的一般計算步驟,如有不足,請多多指教。
本文僅做學術分享,如有侵權,請聯系刪文。
下載1在「3D視覺工坊」公眾號后台回復:3D視覺,即可下載 3D視覺相關資料干貨,涉及相機標定、三維重建、立體視覺、SLAM、深度學習、點雲后處理、多視圖幾何等方向。
下載2在「3D視覺工坊」公眾號后台回復:3D視覺github資源匯總,即可下載包括結構光、標定源碼、缺陷檢測源碼、深度估計與深度補全源碼、點雲處理相關源碼、立體匹配源碼、單目、雙目3D檢測、基於點雲的3D檢測、6D姿態估計匯總等。
下載3在「3D視覺工坊」公眾號后台回復:相機標定,即可下載獨家相機標定學習課件與視頻網址;后台回復:立體匹配,即可下載獨家立體匹配學習課件與視頻網址。
重磅!3DCVer-學術論文寫作投稿 交流群已成立
掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿 微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流群,目前主要有3D視覺、CV&深度學習、SLAM、三維重建、點雲后處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、學術交流、求職交流等微信群。
一定要備注:研究方向+學校/公司+昵稱,例如:”3D視覺 + 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進群。原創投稿也請聯系。
▲長按加微信群或投稿
▲長按關注公眾號
3D視覺從入門到精通知識星球:針對3D視覺領域的知識點匯總、入門進階學習路線、最新paper分享、疑問解答四個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發布3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業為一體的鐵桿粉絲聚集區,近2000星球成員為創造更好的AI世界共同進步,知識星球入口: