雙目圖像超分辨(Stereo Image SR)當前處於起步階段,領域內算法數量不多,性能還有較大的提升空間。筆者將在本文中簡述雙目圖像超分辨領域近年來的主要工作,並簡要分析該領域存在的挑戰與未來工作。
一、簡介與相關工作
大家檢查視力時經常會有這樣的體驗:有時左眼與右眼均無法單獨看清視力表的某一行,但是雙眼一起就能看清。其中所蘊含的原理讓我們深思:左眼與右眼所成圖像通常含有互補信息,其有利於對圖像的重建與細節的恢復。
這便是雙目圖像超分辨的核心思想—— 利用左右圖的互補信息提升圖像的分辨率。 隨着雙攝像頭成像設備的發展,雙目圖像超分辨在手機攝像、遙感、偵察監視、智能機器人等領域具有光明的發展前景。
1. StereoSR (CVPR2018)
StereoSR 出自韓國科學技術院(KAIST),可以算作是雙目圖像超分辨領域的 “開山之作”(不是嚴格意義上的)。其設計思路相對比較簡單,網絡結構如下圖:

StereoSR在解決雙目圖像視差方面的思路為:將右圖水平移動不同像素,生成64張副本圖像,將其與左圖級聯后送入網絡進行重建。
對於圖像中的任一區域(前提是視差不太大),左圖總會和移動某個像素值之后的右圖對應,從而對左右圖的互補信息進行利用。其網絡結構類似於單圖超分辨網絡VDSR,在生成高分辨率Y通道圖像后,該算法又利用另外一個子網絡去學習YCbCr到RGB的轉換。
StereoSR是雙目圖像超分辨領域一個比較初級的奠基性的工作,實驗結果也僅僅展示了其性能優於SISR網絡SRCNN 與 VDSR。
2. PASSRnet (CVPR2019) & Flickr1024 Dataset (ICCVW2019)
PASSRnet 出自筆者所在課題組,前期已有公眾號對該工作進行了報道,內容見 鏈接 。相比於StereoSR,PASSRnet的網絡設計更加精巧,巧妙地將注意力機制引入到雙目視覺中並提出“視差注意力機制”,其網絡結構如下:

PASSRnet網絡主要分為特征提取模塊(包含殘差ASPP與殘差塊)、視差注意力機制模塊(PAM)以及圖像重建模塊。視差注意力機制模塊能夠沿雙目圖像視差方向融合互補信息,不受視差大小的限制,相比於StereoSR具有更強的靈活性與魯棒性。
實驗結果方面,PASSRnet的性能超越了單圖超分辨算法SRCNN、VDSR、DRCN、LapSRN、DRRN,以及雙目圖像超分辨算法StereoSR。
數據集方面,雙目視覺領域現有的數據集(例如KITTI數據集、Middlebury數據集以及ETH3D數據集)更多地針對深度估計與光流估計等任務,在場景數量、場景多樣性以及圖像質量等方面無法滿足雙目超分辨算法的需求。
因此,筆者在這個工作中收集了1024幅雙目圖像,構建並公開了一個大型雙目圖像超分辨數據集 Flickr1024 ,用於對雙目超分辨算法進行訓練和評估。

在數據集對應的 論文 中,筆者對在不同數據集上分別訓練的StereoSR和PASSRnet算法進行了交叉數據集評測(cross-dataset evaluation),實驗結果表明,算法在Flickr1024數據集上訓練可以達到更高的性能。
值得一提的是,2019年有一個Parallax-based Spatial and Channel Attention Stereo SR network(PSCASSRnet)工作發表在 IEEE Access 期刊上。其沿用了PASSRnet的網絡框架,提出的改進為:
1)在Parallax Attention的基礎上增加了 Channel Attention;
2)給網絡增加了全局殘差連接。PSCASSRnet相比於PASSRnet能夠取得更好的性能。
3. SAM (SPL2020)
此處介紹筆者所在課題組的一個最新工作,相關論文 A Stereo Attention Module for Stereo Image Super-Resolution 已被 IEEE Signal Processing Letters 期刊錄用。
該文首先分析了雙目圖像超分辨任務面臨的挑戰(見本文第三節),而后針對這些挑戰提出了一個通用的模塊 Stereo Attention Module(SAM)。
論文將多個SAM安插至現有的單圖超分辨網絡中,並在雙目圖像數據集上進行微調,從而實現在原有單圖超分辨網絡的基礎上多次交互並利用左右圖的信息,達到了很好的雙目圖像超分辨性能。SAM的結構圖如下所示:

圖中:
(a)為SAM安插到兩個相同的單圖超分辨網絡,實現左右圖信息交互的示意圖;
(b)為SAM的結構圖。
SAM相比於視差注意力模塊(PAM),能夠更加緊湊地實現左右圖雙向信息傳遞,為左右圖的多次信息交互提供了基礎。
實驗結果表明,將SAM安插到單圖超分辨網絡SRCNN、VDSR、LapSRN、SRDenseNet、SRResNet中,均可相應提升其超分辨性能;
同時SRResNet+SAM的組合相比於PASSRnet可以取得更好的超分辨效果。
4. Stereoscopic Image Super‑Resolution with Stereo Consistent Feature (AAAI2020)
這是筆者關注到的Stereo Image SR領域的一個最新工作,出自韓國延世大學(Yonsei University),目前論文還未公開。從題目上看,該算法應該是利用了雙目圖像的特征一致性。
二、總結與展望
雙目圖像超分辨任務的 挑戰 可以總結為以下幾個方面:
- 雙目圖像超分辨既要像單圖超分辨一樣充分利用一幅圖內的信息,又要充分結合左右圖的互補信息。設計高效的網絡結構同時利用好這兩種信息是具有挑戰性的。當前最新的雙目超分辨算法性能仍低於最新的單圖超分辨算法,性能還有較大的提升空間;
- 雙目圖像中視差的巨大變化使得左右圖互補信息難以被充分利用,遮擋問題造成的左右圖信息不對稱也給重建過程帶來了挑戰。
- 雖然Flickr1024數據集較大程度上豐富了雙目圖像超分辨算法的訓練集,但是相比於單圖超分辨算法的訓練集(例如DIV2K)而言,雙目圖像數據集仍然在數量、質量、場景多樣性方面存在弱勢,從而限制了雙目圖像超分辨算法的性能。而受限於設備,獲取雙目圖像數據集比獲取單圖數據集難度更大。
雙目圖像超分辨工作可以從以下幾個方面考慮 改進 :
- 可以通過參考stereo matching等任務的網絡框架,設計能夠高效利用左右圖信息的新的機制。
- 參考領域內最新的單圖超分辨算法(例如RCAN、SAN、IMDN等),考慮如何在結合左右圖互補信息的同時不丟失單圖內部的信息,從而實現在單圖超分辨的基礎上提升性能。
- 考慮構建更高質量的雙目圖像數據集,或者考慮將單圖超分辨算法學習到的先驗知識利用到雙目圖像超分辨中(例如進行知識蒸餾等)。