文章版權由作者所有,若轉載請標明出處:https://www.cnblogs.com/zhang716921/p/9216042.html,謝謝!!!
圖像去雨是圖像處理和計算機視覺領域共同關心的重要問題,傳統的關於圖像去雨的圖像恢復方法在某些特定的情況下會失效,鑒於深度卷積神經網絡(CNN)在計算機視覺領域的迅猛發展及其良好的學習性能,越來越多的研究者將CNN應用到圖像恢復領域。本文主要從圖像處理和物理模型的研究角度,並結合卷積神經網絡技術,對圖像去雨技術進行綜述。並主要介紹近幾年提出的典型的去雨CNN網絡的基本原理和研究進展,並對這些方法給出其視覺上的效果和客觀的評估數據。
近年來,隨着計算機軟件和硬件技術的不斷發展,計算能力不斷增強,對雨天圖像進行去雨處理已經成為可能,這反過來又對去雨圖像的清晰度和真實感提出了新的要求。在雨天情況下,由於場景的能見度低和背景場景被遮擋,圖像中目標的對比度和顏色等特征都會出現不同程度的衰減,導致背景信息(即目標圖像)表達不明確,這使得一些視頻或圖像系統不能正常工作,因此需要消除雨天對圖像場景的影響。事實上,圖像去雨一直是圖像恢復和計算機視覺領域研究的重要內容,其主要應用於視頻監控和自動駕駛等領域,因此自動性和實時性就成為了研究關注的重點。本文分析和借鑒了最近的研究熱點,從圖像處理和物理模型的研究角度,並結合卷積神經網絡技術,對圖像去雨技術進行綜述。
1 基於單圖深度聯合雨水檢測和去除
恢復下雨圖像在計算機視覺系統的應用中是很重要的,雨水會遮擋背景場景,造成圖像形變或者模糊,而且雨水也會產生類似於霧氣的大氣遮擋效果,明顯降低了圖像背景的能見度。無論是雨滴密集的暴雨場景還是雨痕帶積聚的場景,該團隊論文提出的方法都可以良好的從單圖像中解決去雨問題。其主要思想在於新的圖像雨水模型(Rain model)和基於此雨水模型的深度網絡架構。
1.1 雨水圖像模型
廣泛使用的雨水模型,表達式如下所示:,其中B代表背景層,即要獲取的目標圖像;S代表雨痕層;O代表有雨痕的輸入圖像(雨痕降質圖像)。基於這個模型,圖像去雨被認為是“雙信號分離問題”,也就是說基於給定的降質圖像O,由於背景層和雨痕層的具有各自不同的特點可以實現將兩層分離,從而得到目標結果。但是這個模型有兩個缺陷:首先,層密度不均勻,因為該層只有部分區域有雨痕,使用統一的稀疏編碼建模的效果是不理想的;其次,解決信號分離問題,沒有區分有雨區域和無雨區域,這會導致處理后的背景過度平滑,導致形變或者模糊。
基於以上的缺陷,對上述模型進行改進。使得層既包含雨痕的位置信息也要包含特定像素點位置的雨痕對像素值的貢獻構成。由此得出一個廣義的雨水模型,如下所示:,這里包含了一個基於區域的變量R,指明了單獨可見的雨痕位置,該變量其實是一個二值圖,值為“1”表示對應像素位置有雨痕,值為“0”表示對應像素位置沒有雨痕。之所以將S、R分別描述並分別用於網絡預測,是為了避免只回歸S影響了圖中不含雨滴的部分。對R獨立建模有以下兩點好處:首先,為網絡提供更多的信息學習雨痕區域;其次,可以檢測到雨水區域和非雨水區域,對兩者做不同的處理,可以最大化得到背景層的信息。
在現實場景中,基於雨痕帶具有不同的形狀和不同的方向且雨痕之間會相互重疊,以及暴雨情況下的雨水積聚產生的霧氣效果導致遠處場景的能見度降低這兩個主要的問題,該方法提出了一個更細致的雨水模型,該模型包含多個雨痕層(每個雨痕層中的雨痕方向是一致的),也包含了全局大氣光的作用效果(用來模擬雨水產生的霧氣效果),模型公式表示如下:,這里S表示一個雨痕層,該層中的雨痕方向都是一致的;t是雨痕層的索引;A是全局大氣光,其實質是對雨水產生的霧氣效果進行建模;是全局大氣光傳輸系數。這個模型,同時實現了雨水效果和霧氣效果的一種綜合狀態,更逼近真實的降雨效果,基於這個模型得到的目標圖像更接近自然圖像。
1.2 聯合雨水檢測和去除的深度卷積神經網絡
基於以上模型,提出了一個循環雨水檢測和去除的深度網絡架構,具體結構如圖1所示。
圖1 循環雨水檢測和去除網絡架構。每次循環使用一個多任務網絡進行雨水檢測和去除(藍色的點框)
情境化的上下文擴張網絡:該深度架構包含一個新穎的網絡結構,即基於情境信息的上下文擴張網絡(Contextualized dilated network),此結構用於提取雨水圖像的可識別特征,為后續的檢測和去除做基礎。
擴張卷積技術(Dilated Convolutions):上下文信息對於圖像雨痕區域的檢測和識別是非常有用的,使用情境化的上下文擴張網絡可以聚合多尺度的上下文信息來學習雨水圖像的特征信息。擴張卷積與普通的卷積相比,除了卷積核的大小以外,還有一個擴張因子(Dilated factors)參數,主要用來表示擴張的大小。擴張卷積與普通卷積的相同點在於,卷積核的大小是一樣的,在神經網絡中即參數數量不變,區別在於擴張卷積具有更大的感受野(Receptive field)。在圖1中可以看到該網絡包含三條卷積路徑,每條卷積路徑均使用3*3的卷積核,第一個卷積路徑使用普通的卷積核,其余兩條路徑則使用擴張卷積技術,所以具有不同的擴張因子[DF = 1, 2, 3],使得提取到特征具有不同的接受視野[5*5, 9*9, 13*13]。基於這種思想,可以提取更豐富的圖像上下文信息,使得特征具有更強的魯棒性。
循環子網絡:圖1中的藍色的點框是該子網絡的結構,每次循環的結果會相應的生成一個殘差圖像T(*),該結果會作為下一次循環子網絡的輸入,每次的預測殘差值隨着網絡的循環而累積。並且每次循環所需要的雨水掩模層和雨痕層,並不相同,而是通過損失和每次進行正則化后的結果。
1.3 實驗結果
定性評估:以下給出本方法和其他方法,基於相同的真實雨水圖像的測試數據集下的采樣結果,其中主要了比較了DSC(鑒別稀疏編碼)和LP(層先驗),對比結果如下圖2所示:
圖2 基於真實圖像,不同方法的測試結果。從左到右依次對應:輸入測試圖像,DSC,LP和本文方法
定量評估:主要使用峰值信噪比(PSNR)和結構相似性(SSIM)兩個度量來對不同的去雨方法進行數據比較,並且對應度量的數值越大表明效果越好。表1是基於數據集Rain12和Rain100L得出的對比結果。
表1 基於數據集Rain12和Rain100L,不同去雨方法在PSNR和SSIM度量得出的結果
2 使用Attentive GAN對單圖像去雨
本方法解決了一個更具挑戰性的問題,去除落在玻璃或者鏡頭上的雨滴。首先,被雨水遮擋的原圖像信息是不可知的;其次,被遮擋的背景信息不可避免會丟失很多;如果輸入圖像的雨滴較大並且分布密集時,情況會變得更加棘手。這給問題的解決帶來了極大的難度。
為了解決這個問題,該團隊論文提出了使用注意力生成對抗網絡(Attentive GAN)。主要思想是模擬人的視覺注意力(Visual attention),將注意力進行量化,然后同時應用於生成網絡(Generative network)和判別網絡(Discriminative network)進行訓練。在訓練過程中,量化的視覺注意力可以學習到更多的雨水區域及其周圍的信息。因此,將視覺注意力應用於生成網絡和判別網絡,可以使得生成網絡能更好的聚焦於雨水區域及其周圍的結構信息,也可以使得判別網絡獲得圖像恢復區域的局部一致性信息。
2.1 雨水圖像模型
本方法將被雨滴降質的圖像視為是圖像背景信息和雨滴效果共同作用產生的結果,並為降質圖像進行構建了物理模型,表達式如下所示:,
這里的I表示輸入圖像;M是基於整張圖像的每個像素二進制掩模(Binary-Mask,對於像素x,如果被雨滴覆蓋,則M(x) = 1,否為M(x) = 0);B是圖像的背景(即想要得到的目標圖像);R是雨滴帶來的影響綜合效應(圖像背景信息、環境反射光和附着在擋風玻璃或者鏡頭的雨滴的折射光的一種復雜混合,因為雨水是透明的,由於雨滴形狀和折射率的問題,圖像雨水區域內的一個像素會受到周邊像素的影響,是一個綜合的效應表現);操作符表示逐像素乘法。
基於這個模型,目標是從輸入降質圖像I獲取目標圖像B。使用M作引導生成注意力映射圖(Attention map),並應用到GAN來實現目標圖像的生成。
2.2 Attentive GAN網絡結構
圖3顯示了本方法的整個網絡的架構,可知網絡主要包括兩個部分:生成網絡和判別網絡。給定一張被雨水降質的圖像,生成網絡嘗試生成盡可能真實的無雨圖像,判別網絡則用來驗證生成的圖像是否足夠真實。
圖3 Attentive GAN架構圖示
生成網絡:如圖3所示的結構,該生成網絡包含兩個子網絡:注意力循環子網絡(Attentive-Recurrent Network)和上下文自編碼器子網絡(Contextual Autoencoder)。注意力循環子網絡的目的是找到輸入圖像需要被注意的區域,主要是需要上下文自編碼器子網絡需要聚焦的雨水及其周圍的區域。這樣可以生成更好的局部恢復圖像,以便判別網絡更好的聚焦和評估。
注意力循環子網絡:視覺注意力模型應可以幫助定位一張圖像的目標區域,並獲取該區域的特征。該模型對於生成無雨圖像也同樣重要,因為它可以讓網絡聚焦於圖像修復區域。圖3中顯示,該方法使用循環網絡生成量化后的圖像的視覺注意力,對於每個時間步,其輸入是原始輸入圖像和上一時間步的注意力映射圖,它包含五個ResNet殘差塊層用於提取特征,和一個卷積LSTM單元以及一個卷積層用於生成一張2D的注意力圖。
從每個時間步學習得到的注意力映射圖,是一個二維的矩陣,每個元素的取值范圍為0 ~ 1,且元素的值越大,表示該元素對應圖像區域獲到了更大的關注值。因此從整體來看,隨着時間步的推移,每個步驟獲取的注意力圖的元素值是逐漸增加的。注意:第一個時間步的輸入是原始圖像和一個初始化的注意力映射圖。
增加注意力機制是有意義的,注意力增加可以擴大關注的區域,使得雨水區域的周圍信息也得到關注;不同的雨滴具有不同的透明度,背景信息不能完全被遮擋,擴大注意力可以透過雨滴捕捉到一些背景信息。
上下文自編碼器子網絡:該子網絡的將原始輸入圖像和注意力循環子網絡最后一個時間步生成的注意力映射圖作為輸入,以獲取一張無雨圖像為目標的。該深度自編碼器包含16個conv-relu塊和跳躍連接(Skip Connection)來防止目標圖像模糊。具體結構如圖4所示。
圖4 上下文自編碼器的結構。多尺度損失和感知損失被用於訓練該子網絡
由圖4可以看出,該子網絡使用了多尺度損失(Multi-scale loss)和感知損失(Perceptual loss)。基於像素操作的多尺度損失,從不同的解碼層(Decoder layers)提取特征來形成不同尺寸的輸出,這可以獲取更多的上下文信息。感知損失,用來衡量由自編碼網絡輸出圖像的特征和原視輸入圖像特征的整體差異,而這里提到的特征提取,是基於訓練好的CNN(基於ImageNet預訓練好的VGG16)。
判別網絡:為了區分生成圖像的真實性,一些一些基於GAN的方法,在判別網絡部分常采用圖像內容全局和局部一致性為標准。全局判別器用來檢測整體圖片的不一致性,局部判別器檢測一塊很小的特定區域。
該判別網絡的特點是使用一個注意力判別器(Attentive discriminator),即注意力循環網絡生成的注意力映射圖應用到判別網絡。使用注意力映射圖來引導判別器聚焦相應的區域,更好的來判斷圖像的真實性。
2.3 實驗結果
定性評估:圖5給出了本方法與其他論文提出的一些方法(主要是Eigen和Pix2Pix)的結果對比;圖6給出了整個網絡(AA+AD)與該網絡體系其他可能的配置的結構(A,A+D,A+AD)的結果對比。A(無注意力映射圖的自編碼器),A + D(無注意力映射圖自編碼器加無注意力映射圖判別器),A + AD(無注意力映射圖自編碼器加上有注意力映射圖鑒別器),AA + AD(有注意力映射圖自編碼器和有注意力映射圖判別器)表示本方法的網絡整體架構。
無論雨滴顏色、形狀和透明度具有多樣性,本文方法都幾乎都可以完全去除。
圖5 不同方法的結果比較。從左到右:原始輸入圖像,Eigen,Pix2Pix,本文方法
圖6 網絡體系及其可能的配置結構之間的結果對比
定量評估:表2給出了本文方法和已有方法在峰值信噪比(PSNR)和結構相似性(SSIM)兩個度量上比較的結果,對應度量的數值越大表明效果越好。
表2 定量評估結果
3 總結與展望
方法一團隊提出了一種區域相關的雨水圖像模型,用於進一步檢測雨水,並進一步更好的模擬雨水積聚和暴雨的情況,並基於此模型提出一種聯合雨水檢測和去除的網絡結構,對於去除雨痕積聚的情況很有效果;方法二團隊提出了一種基於單幅圖像的雨滴去除方法,該方法利用生成對抗網絡,其中生成網絡通過特殊的循環機制產生注意力映射圖,並將該圖與輸入圖像一起通過上下文自動編碼器生成無雨滴圖像,對於去除明顯可見且密集的雨滴效果明顯。
為了更好的泛化,獲得更普適的去雨機制,可以嘗試探索將兩種方法結合起來的一種方法,此方法的展望需要進一步的實驗探究和驗證。經過不斷的研究,圖像去雨已經取得了較大的成就,但將卷積神經網絡技術應用於圖像去雨仍然需要繼續探索。
4. 參 考 文 獻
[1] Qian R, Tan R T, Yang W, et al. "Attentive Generative Adversarial Network for Raindrop Removal from a Single Image. " The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2018
[2] Yang, Wenhan, et al. "Deep joint rain detection and removal from a single image." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017.
[3] Fu, Xueyang, et al. "Removing rain from single images via a deep detail network." The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017.
[4] Cai, Bolun, et al. "Dehazenet: An end-to-end system for single image haze removal."IEEE Transactions on Image Processing25.11 (2016): 5187-5198.
[5] Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[J]. arXiv preprint arXiv:1511.07122, 2015.
[6] 徐波, 朱青松, 熊艷海. "視頻圖像去雨技術研究前沿." 中國科技論文 10.8 (2015): 916-927.
[7] 郭潘, et al. "圖像去霧技術研究綜述與展望." 計算機應用 30.9 (2010).