閱讀筆記Underexposed Photo Enhancement using Deep Illumination Estimation


這篇文章做了啥?

圖像的增強,給定圖像比較暗,通過增強的操作來增加欠曝光的圖像的亮度。
和以往的圖像到圖像的生成不太一樣,這篇文章首先產生了三個亮度的通道,用這三個亮度的通道的逆去乘原圖像,得到的最后增強之后的圖像
圖像增強是一個非線性的過程,盡管很多圖像處理軟件可以對圖像進行增強,但是需要非常專業的能力。一些手機軟件提供了自動圖像增強的能力,但是這種能力對於弱曝光的圖像處理的並不是特別好
最近的深度學習算法能夠解決這個問題,但是他們解決這個問題的能力不是特別好,作者舉了以下幾個例子(說不清楚具體比別人好在哪里的時候,舉例子之后再分析可能是一個比較好的切入點)

作者認為的創新之處

作者提出了一個端到端的用於欠曝光圖像增強的網絡結構,相對於圖像到圖像的預測,這個網絡只image-to-illumination的預測,同時作者設計了基於不同illumination的約束和先驗的loss函數
作者搞了一個數據集合,有三千張欠曝光的圖像,並且作者請了一些專家進行修飾
作者再之前的和自己建立的數據集合上進行了實驗,實驗結果無論是定性還是定量都比較好

圖像增強模型

如下

其中\(I\)是未增強的圖片,\(\tilde{I}\)是增強之后的圖像,相當於是對正常曝光的圖。作者專門解釋了一下這個公式為什么work,作者說重要的優點是,亮度圖比較簡單,而且其中還蘊含着先驗知識,如果輸出亮度圖的話,實際上網絡有很強的泛化能力來學到不同光照條件下的復雜的攝影調整。除此之外,通過對illumination map建立約束,模型也能夠定制增強之后的結果。比如,通過約束illumination map的局部光滑,對比度可以得到增強,或者 通過約束亮度圖的幅度,可以調整增強之后的結果

網絡結構

網絡結構和pipline如下

作者並沒有着重說他們的網絡結構,只是說了網絡結構包含一個local和一個global的模塊,能夠獲取不同尺度的信息,然后因為輸出尺寸的比較小,所以能夠保證效率的問題

loss函數


loss函數如上,一共包含了三項loss,一個是重建的loss,就是直接比較兩幅圖像的接近程度
另外一個是smooth loss,就是為了對輸出的亮度圖進行一個光滑,這是基於兩篇文章提出來的理論,表述的是亮度應該是局部光滑(locally smooth)的。
作者說這個smooth loss有兩個優點,第一個是可以減少過擬合和增加網絡的泛化能力;第二個優點是它可以增加圖像的對比度。
作者舉了一個例子,比如p和q有相似的亮度的話,那么經過s變換之后,這個在亮度圖上的差異應該會被放大

所以,需要對這個亮度圖進行約束,作者提出的smooth loss如下

其中,

大致的意思是,如果原圖的某個pixel比較smooth的話,那么這一項的loss的系數就會很大,如果原圖的某個pixel很sharp的話,那么它對應的亮度圖對應的像素的系數會很小。就是如果原圖很smooth的話,得到的亮度圖應該也是smooth的,如果原圖是sharp的話,那么對應的亮度圖也應該是sharp的。作者還說道,對於曝光不足的圖片,圖像內容和細節通常較弱,照明不一致會導致大的梯度。
同時作者還考慮到了color loss,就是計算對應pixel(RGB三通道表示的三維向量)的余弦距離,作者說L2 norm只能夠測量兩個向量之間的距離,不能夠保證他們的方向是一致的,不能夠保證color vector有一致的方向,所以L2度量方式可能導致明顯的color mismatch。
我感覺這個地方考慮的是角度相似性的問題,比如預測得到的rgb三個通道的向量如果只是和原圖的rgb相差一個scale的話,那么應該余弦距離是為0的,但是只差一個scale就是只差一個亮度,這種做法能夠保證優化的方向是一致的,至於具體的距離可以交給L2norm

數據集合的建立

在此之前作者提到了另外一個圖像增強的數據集合,叫做MIT-Adobe FiveK dataset,但是這個數據集合有一個缺點就是它只用來做普通的圖片的數據增強而不是欠曝光的圖像的數據增強
所以作者准備做的這個問題,之前沒有過類似的數據集合,作者用EOS 5D相機來拍攝圖片,同時,在Flicker這個網站上也收集了大約15%的圖片,搜索的關鍵詞欠曝光,低光,或者backit等關鍵詞。然后作者說他們雇佣了3個專家來用adobe的lightroom調整圖像,用調整之后的圖像作為gt進行訓練。作者的數據集合包含各種各樣的場景,包含了各種各樣的亮度。總的來講,作者的3000張圖片中,有2750張圖片用來做訓練,250張圖片用來做測試。值得注意的是,作者現在還沒有公開訓練數據,只公開了測試數據。

試驗step

ablation study

同時作者還在FiveK數據集合上進行了評估,選取了expertC的結果,用4500張進行訓練,用測評標准還是SSIM和PSNR。
作者寫文章的手法還是值得借鑒的,比如在提出每個loss的時候,會通過實驗結果說明每個loss的作用,而不是在提及的時候先闡述一下原理,然后通過實驗結果佐證之前的假設;感覺這可以作為寫文章的一個手法。
先看一下各個loss的作用,如下圖

看上圖的第二列和第三列,作者想表達的意思是,相對於直接輸出的圖像,通過輸出illumination map的話,可以恢復更多的細節,但是可能不具備比較合理的對比效果或者生動的色彩,所以作者引出了smooth loss。通過對比第三列和第四列,可以發現smooth loss可以增加圖像的對度。通過對比第四列和第五列,可以發現顏色並沒有mismatch。大概就是顏色並沒有失真的這個意思吧。

和sota方法比較

作者列舉了幾種sota的方法,如下圖

分別在作者提出的和FiveK數據集合上進行了比較,作者說,相對於其他的方法,作者的方法無論在前景或者是背景上,都能夠恢復圖像的更多的細節和對比度,而不用犧牲一些圖像中過曝光的區域。第二個優點就是作者增強之后的圖片顯得更加的有生機,以及更加的realistic。
同時,作者在兩個數據集合上都做了量化評估,如下表

在user study上,作者又重新在flicker上下載了500張圖片,來直接用網絡進行預測,並且得到了一個實驗結果,如下圖,這種更加細致的user study其實可以做一個參考寫東西的方向

作者一共問了6個問題。比如是否vivid,相對於輸入是否是更加的吸引人等。

結論和討論

作者說他們的網絡也有一些局限性,比如在非常暗的環境下並不能恢復出來detail,我感覺emm因為訓練數據不夠用唄~
還有就是去噪能力不夠,感覺訓練數據都是非常clean的,除了暗之外,所以這里的shortcoming,感覺意義不是特別大

鄙人總結和展望

在結果上如此好,一個是得益於直接輸出的是亮度圖,另外一個大概就是作者提出的三個loss,和其他的方法比較,沒有比較網絡參數,這個可能也是一個漲點的原因
作者是第一個做低光圖像增強的,之前的網絡沒有被設計的專門follow這一部分?maybe
能否做一個通用的曝光增強的網絡,我的意思是,可以有不同level的亮度,網絡都能夠輸出比較好的試驗結果,這個通用的模型是必須的,可以參考一下卷積神經網絡里面的attention結構模塊,能夠attention不同的亮度信息,以及不同的noise程度等等
是否可以在raw上進行無監督的圖像生成,因為考慮到了采集圖像,並且通過isp后期調整之后的困難?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM