白平衡(Color Constancy,無監督AWB):CVPR2019論文解析


白平衡(Color Constancy,無監督AWB):CVPR2019論文解析

Quasi-Unsupervised Color Constancy

 

 

 

論文鏈接:

http://openaccess.thecvf.com/content_CVPR_2019/papers/Bianco_Quasi-Unsupervised_Color_Constancy_CVPR_2019_paper.pdf

摘要

本文提出了一種計算顏色恆常性的方法,即訓練一個深卷積神經網絡來檢測彩色圖像中轉換成灰度后的消色差像素。該方法不需要任何關於場景中光源的信息,並且依賴於弱假設,幾乎所有網絡上可用的圖像都填充了該假設,即訓練圖像已大致平衡。由於這一要求,本文將本文的方法定義為准無監督。經過訓練后,神經網絡的輸入經過初步的灰度轉換,可以對不平衡圖像進行處理。大量實驗結果表明,該方法能夠在現有技術條件下優於其他無監督方法,同時具有足夠的靈活性,能夠被監督地調整以達到與最佳監督方法相當的性能。

1.       Introduction

計算色彩恆常性是一個長期存在的問題,它包括校正圖像,使其看起來像是在中性光源下拍攝的。計算色彩恆常性有助於解決許多計算機視覺問題,如視覺識別[14]、監視[22]等,其中色彩是區分物體的重要特征。盡管這個問題表面上很簡單,但它對人類和計算機視覺系統來說都是非常具有挑戰性的[25,20]。在過去的十年里,本文解決許多計算機視覺問題的能力有了顯著的提高。這背后的主要因素是深度學習算法的發展,使其能夠遵循非常有效的數據驅動方法[35]。因此,有人曾多次嘗試利用這種機器學習范式來實現計算色彩恆常性,這並不奇怪[7,37,28,38]。然而,在本文看來,這些方法只是部分地利用了深度學習的潛力。             

將深度學習方法應用於顏色恆常性的主要困難在於缺乏用基本真實光源注釋的大型數據集。事實上,用於此目的的數據集通常是通過拍攝放置了具有已知色度特性的標准對象(例如彩色目標)的場景來獲得的。這個程序對於收集監督深度學習所需的大數據集顯然是不切實際的。基於機器學習的顏色恆常性方法的另一個問題是,所學習的模型通常專門用於使用用於收集訓練集的相同設備獲取的圖像。它們應用於其他設備拍攝的圖像需要某種形式的適應或再訓練[2]。本文提出了一種基於深卷積神經網絡的顏色恆常性計算方法。該方法利用公共可用圖像的大數據集,以准監督的方式訓練網絡。不需要關於光源顏色的基本事實。相反,該方法利用了這樣一個假設,即訓練圖像已經被手動或未指定的自動處理管道大致平衡。由於這一假設(正如本文將看到的,在實踐中很容易實現),本文將本文的方法定義為“准無監督”,而不僅僅是“無監督”。更詳細地說,訓練神經網絡來檢測消色差像素。為此,只考慮輸入圖像的灰度版本。這樣,輸出與光源的實際顏色無關,因此,該網絡可以稍后應用於平衡和不平衡圖像。

檢測像素的加權平均值是最終用於校正輸入彩色圖像的光源的估計值。本文通過在三個常用於圖像識別和檢索的大數據集上訓練幾個神經網絡,驗證了該方法的可行性。對兩組帶注釋的原始圖像數據集的評估表明,即使沒有這些數據集的圖像用於訓練,也可以獲得非常精確的結果。該方法的新穎設計決定了其相對於現有競爭方法的顯著優勢:(i)該方法利用復雜的神經網絡結構,而不需要大量的帶注釋圖像訓練集;(ii)訓練后的模型可以應用於任何攝像機獲取的不平衡圖像,而無需任何形式的適應。盡管設置復雜,但與文獻中報道的相比,在估計光源方面的精度是有利的。特別地,所提出的方法能夠優於現有技術中的其他無監督方法。此外,它還可以選擇性地支持對特定數據集進行有監督的精確調整,使其能夠達到與最佳有監督方法相當的性能。

2.       Related work

目前最先進的計算顏色恆常性方法通常分為兩類:基於統計的方法和基於學習的方法。前一類方法對自然場景的統計特性進行假設,並估計光源的顏色與這些假設的偏差[46]。后一類方法使用從訓練數據中學習的模型來估計光源的顏色。最近的大多數方法都是基於學習的,因為這種方法相對於基於統計的方法可以達到更高的精度。這些方法中的許多都使用了從輸入圖像中提取的手工特征訓練的模型,例如[18,11,21,41,16],而最近的研究則使用深卷積神經網絡來學習特征,例如[7,37,8,44,28]。應用上述深度學習方法的主要困難在於缺乏用地面真實光源注釋的大規模數據集。作為參考,可用於顏色恆定性的最大數據集比可用於其他計算機視覺任務(如視覺類識別)的數據集小三個數量級[42]。此外,這種方法在跨數據集設置中使用時往往會降低其性能,需要一個確定的調整階段來適應新的數據集。這些原因推動了新算法的研究,這些算法不需要帶注釋的光源基本事實的數據集,本文稱之為無監督方法,並且產生的結果與目前最先進的基於學習的方法相當。

為此,本文提出了一種將顏色恆定性算法分為三類的方法:參數化的,包括依賴於一組非常小的參數進行調整的方法,例如[4,19,46];有監督的,包括需要適當訓練階段的方法,例如[23,12,6];無監督的,包括不需要注釋數據集的方法,並且可以在沒有任何形式的調整的情況下容易地應用於新數據集,例如[34,9]。在下文中,本文將回顧這些與本文目的最為相關的后期工作。本文指的是閱讀調查[26,25]了解更多背景。有趣的是,在最新技術中提出的第一種顏色恆定性算法是無監督算法。例如,白點(或MaxRGB)[34]算法假設從三個顏色通道中的每一個獨立獲得的最大值表示照明的顏色。Gray World[9]基於這樣的假設,即圖像中的平均顏色是灰色的,並且可以將光源顏色估計為圖像顏色通道中的平均值從灰色偏移。最近Buzzelli等人[10] 提出了一種深度學習方法,該方法不使用光源注釋進行訓練,而是以提高目標識別等輔助任務的性能為目標。因此,該方法學習在沒有任何照明地面真實數據的情況下預測光源顏色,但它需要輔助任務的標簽信息。

Banic和Loncaric[3]提出了一種啟發式算法,稱為綠色穩定性假設,它可以通過僅使用原始圖像而不使用已知的地面真照度來調整基於統計的方法的參數值。文中[2]提出了一種基於無監督學習的方法,該方法在逼近訓練圖像的未知地面真照度后學習其參數值。因此[2]和[3]不需要照明體地面真實信息可用,而是需要原始訓練數據集。錢等人也需要同樣的數據。[40]提出了一種基於新的灰度像素檢測和均值漂移聚類的統計顏色恆常性方法。

3.       Method

計算顏色恆定性通常分為兩個步驟:首先估計光源的顏色,然后用估計值校正輸入圖像。本文提出了一種基於卷積神經網絡的大數據集圖像照度估計方法。該方法是“准無監督”的,因為它的訓練過程不依賴於場景中光源的實際顏色知識。相反,這種方法是基於這樣的假設,即訓練圖像在發布之前已經被其所有者近似地平衡了。因此,本文預計在大多數情況下,光源的顏色接近灰色。本文將該方法定義為“准無監督”(而不僅僅是“無監督”),因為假定的初步顏色校正需要某種形式的弱監督,即使這樣的校正尚未明確執行以實現顏色恆定性。

訓練結束后,為了能夠將得到的模型應用於不平衡的原始圖像,需要解決兩個主要問題:(i)這些圖像將與用於訓練的圖像不同,並且(ii)將有一個實際的地面真相用於評估,但不用於訓練。本文解決了第一個問題,在將圖像傳輸到網絡之前將其轉換為灰度,這樣它們幾乎獨立於場景光源的顏色。通過訓練網絡來解決一個可以被視為光源估計代理的問題:消色差像素的檢測,解決了缺乏地面真實感的問題。圖1給出了該方法的概述,詳細信息將在下面的章節中解釋。一旦計算出光源顏色的估計值,就可以用它來校正輸入圖像。為此,本文應用von Kries模型[47],該模型通過估計的相應分量來縮放像素的顏色分量。

 

此外,在將其轉換為灰度訓練圖像(假定在sRGB顏色空間中)之前,使用伽馬去除對其進行初步處理,以使其像素值相對於能量呈線性:

 

 

最小化LA(I)的一個困難是,由於(1)中的標准化,估計I在w的標度下是不變的。這種不變性的結果是,不鼓勵神經網絡使用w的整個[0,1]范圍,因為它可以在不改變最終估計的情況下為像素分配微小的權重。這會對優化算法的穩定性產生負面影響。

3.1.  Illuminant estimation

 

 

 

 

 

 

3.2. Extensions and variations

該方法具有很強的靈活性,可以很容易地適應多種變化。特別地,只要灰度圖像獨立於光源的顏色,就可以用其他信息替換或與其他信息組合。我們實驗了從每個顏色通道上計算的空間梯度得到的信息。由於梯度的大小與光源的顏色密切相關,我們只考慮方向。更准確地說,對於每個顏色通道,我們通過應用Sobel算子計算水平和垂直空間導數[45]。然后,對這兩個導數進行歸一化,形成單位長度向量。這個過程產生一個六通道圖像(兩個導數乘以三個通道),可以用作神經網絡的輸入。

3.3. Supervised fine tuning

盡管本研究的主要焦點是准監督設定,但也有可能將該方法應用於監督學習。為此,用色差LC代替(2)中的消色差損失是足夠的,

 

 

 

 

 

 

 

 4.       Experimentation

實驗             

神經網絡已經通過運行300000次Adam優化算法迭代來訓練[33]。目標函數是消色損失,如等式(4)所定義,噪聲項的標准偏差設為100。每次迭代分析一小批16幅圖像;學習率為10-4,重量衰減系數為10-5。所有的參數都是在一些初步實驗的基礎上根據經驗設定的。對於深度學習應用程序,培訓數據的質量至關重要。

在這項工作中,本文決定采用三個廣泛用於訓練圖像識別和檢索系統的大型數據集。Ilsvrc12是為互聯網大規模視覺識別挑戰[42]公開提供的數據集,它可能代表了最流行的圖像識別基准。該數據集由大約120萬個樣本組成,這些樣本來自為ImageNET倡議收集的1000個不同類別的樣本[17]。

第二個數據集是Places365[50],其中包括約180萬張圖像,代表365種不同類別的場景。圖片是通過查詢幾個搜索引擎從WordNet中提取的詞匯,然后手工標注而獲得的。數據集的主要目的是作為場景識別系統的基准。本文考慮的最后一個數據集是Flickr100k數據集[39]。它由100071張圖片組成,這些圖片來自Flickr照片共享服務通過搜索146個最流行的標簽。數據集已被收集以評估圖像檢索算法。

本文選擇了三個不同的數據集,目的是評估訓練圖像的性質對學習模型質量的影響程度。Ilsvrc12和Places365包含從搜索引擎獲取的圖像,而Flickr100k包含來自單個源的圖像。Ilsvrc12包含許多“以對象為中心”的圖像,背景很少或沒有背景,而Places365則聚焦於整個場景。Flickr100k中的圖像平均來說質量比其他兩個數據集中的圖像高。

3報告了由經過訓練的網絡處理的三個數據集的一些圖像示例(圖像來自Ilsvrc12和Places365的驗證集以及Flickr100k的訓練集)。在選擇用於估計光源的像素時所遵循的策略可以通過查看權重來推斷。該網絡經常選擇光源,如燈、天空或太陽。窗戶通常是在室內場景中選擇的,光線來自室外。該網絡在識別高光和直接從光源擴散光的表面方面似乎也相當好。選擇暗區的情況很常見:這是因為它們對等式(1)中的和的影響有限。

3還顯示了並非所有的圖像都很平衡。其中一些呈現出強烈的非中性色彩,這在日落和夜間圖像以及一些室內圖像中非常明顯。然而,由該方法提供的光源估計似乎與圖像的內容一致。盡管由於缺乏基本的事實,本文無法定量地評估這些估計值,但本文可以觀察到,根據估計值平衡的圖像看起來很自然。這表明,該網絡通過對大量“幾乎平衡”的圖像建模,學會了如何平衡異常值。

 

 

4.1.  Evaluation

該方法的目的是在不平衡圖像中實現對光源顏色的高精度估計。為了評估這一點,本文處理了兩個不同的原始圖像數據集,通常用於評估顏色恆定性算法。兩個數據集都包含高分辨率照片,表示場景,包括顏色校准目標(Macbeth ColorChecker)。對於每幅圖像,通過分析彩色目標中的灰度斑,計算出一個地面真照度。第一個測試數據集是由Shi和Funt重新處理的變體中的顏色檢查器(CC)[23,43]。它由568張用佳能1D和佳能5D相機拍攝的圖像組成。第二個數據集由新加坡國立大學(NUS)的一個研究小組收集[15],其中包括用9個不同相機采集的1853幅圖像。正如Hordley和Finlayson所建議的,本文考慮的誤差度量是估計的和地面真照度之間的角度[27]。將訓練模型應用於兩個測試數據集得到的結果總結在表1中。三個訓練集的平均角誤差和中位角誤差在0.2度或更小的范圍內相當一致。這一點非常重要,因為它證明了用於訓練的照片類型不是最重要的。它還表明,本文的方法依賴於在實踐中容易滿足的假設(即,訓練圖像已經平衡)。

對於訓練和測試數據集的每個組合,本文評估了網絡處理的數據類型不同的三種變體。第一個處理均衡的灰度圖像,第二個分析梯度方向,第三個是基於兩者的組合。在所有情況下,單獨使用或組合使用漸變方向,可以獲得比僅使用灰度圖像更好的效果。對於CC數據集,通過在Ilsvrc12上使用灰度和方向訓練的模型,獲得了最小的中值角誤差。對於NUS來說,在中位角誤差方面的最佳組合是使用Flickr100k上訓練的模型,只使用梯度方向。在剩下的實驗中,本文把在Ilsvrc12上訓練的具有灰度和方向的實驗作為參考。圖4顯示了處理來自測試集的一些圖像的結果。可以注意到,即使在圖像不平衡的情況下,網絡如何選擇有意義的區域,例如那些表示光源或高光的區域。與訓練圖像不同,這次選擇的像素不是消色差的。取而代之的是,它們的顏色近似於地面真光源的顏色。結果,根據估計值平衡的圖像看起來就像是在中性光源下拍攝的。

4.2.  Fine tuning

當一個帶注釋的訓練集可用時,可以通過調整其參數來提高神經網絡的性能。這是通過使用較小的學習率以有監督的方式繼續進行訓練來完成的。在這里,本文進行了250000次額外的迭代,並且沒有方程(4)中的噪聲項。本文對顏色檢查器和NUS數據集都重復了這個實驗。在這兩種情況下,本文通過三次交叉驗證來評估最終績效。表2報告了本文通過調整在Ilsvrc12上訓練的神經網絡來處理灰度圖像和梯度方向的組合而獲得的結果(為了簡潔起見,本文省略了其他變量所獲得的性能)。對於兩個測試數據集,平均角誤差和中值角誤差均減小。在NUS數據集的情況下,改進尤其明顯,平均誤差相差超過一個程度。

4.3.  Comparison with the state of the art

3報告了目前幾種方法的角度誤差統計。這些值是從文獻中獲取的,或者是通過執行公開可用的實現獲得的。方法分為無監督方法、參數方法和有監督方法。這三個類別被進一步划分為:“在數據集中”,這意味着該方法在同一數據集上經過交叉驗證的訓練/調整對其進行測試的顏色恆常性數據集;“交叉數據集”,表示該方法在一個顏色恆常性數據集上進行訓練/調整,並在另一個顏色恆常性數據集上進行測試;“無數據集”,表示該方法未在任何顏色恆常性數據集上進行訓練/調整。從表3和圖5中報告的結果可以注意到,所提出的方法能夠在CC和NUS數據集上分別減少37.9%和9.6%的中位角誤差,並且能夠在很大程度上優於現有技術中的所有純無監督算法(即無監督no db),同時在所有不同的攝像機上顯示更穩定的性能。在跨數據集的情況下,該方法的性能優於所有有監督的方法。對於參數化方法,除了NUS上的中值誤差外,本文的方法在所考慮的所有誤差統計量上都優於它們。有趣的是,參數化方法在這種情況下表現得比有監督的方法好。在完全監督的情況下,該方法的網絡優化版本能夠優於所有參數化方法,並與在NUS上獲得最新技術中的最佳平均誤差和次優中值的監督方法競爭。

 

 

 

 

 

 

 

 5.       Conclusions

本文提出了一種利用深卷積神經網絡的計算顏色恆常性的方法,該方法利用了大量的未標注數據集,這得益於一種准無監督的學習過程。本文訓練了不同類型的信息處理方法和訓練數據集。實驗結果表明,該方法在性能上優於現有的其他無監督方法,同時具有足夠的靈活性,可以在特定的數據集上進行監督調整,達到與頂級監督方法相當的性能。在這項工作中,本文關注的是准無監督的設置。在未來,本文計划更徹底地探索有監督的最終調整步驟,可能通過試驗從轉移學習和領域適應文獻中獲取的更復雜的技術。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM