1. 摘要
當用於訓練的數據與用於評估的數據相似時,機器學習技術最有效。這對於學習過的單圖像去噪算法來說是正確的,這些算法應用於真實的原始相機傳感器讀數,但由於實際的限制,通常在合成圖像數據上進行訓練。雖然從合成圖像推廣到真實圖像需要仔細考慮相機傳感器的噪聲特性,圖像處理管道的其他方面(如增益、顏色校正和色調映射)常常被忽略,盡管它們對原始測量數據如何轉換成最終圖像有重要影響。為了解決這個問題,我們提出了一種通過反轉圖像處理管道的每個步驟來反處理圖像的技術,從而使我們能夠從普遍可用的互聯網照片合成現實的原始傳感器測量。此外,在評估我們的損失函數時,我們還對圖像處理管道的相關組件建模,這使得訓練能夠意識到去噪后將發生的所有相關光度處理。通過對訓練數據和模型輸出進行反處理和處理,我們可以訓練出一個簡單的卷積神經網絡,它的錯誤率在Darmstadt Noise數據集上比之前的技術低14%-38%,快9-18,也適用於這個數據集之外的傳感器數據。
論文:https://arxiv.org/abs/1811.11127
代碼:https://github.com/timothybrooks/unprocessing
2. 介紹
傳統的單圖像去噪算法通常是對圖像的性質及其要去除的噪聲進行分析建模。相比之下,現代的去噪方法通常使用神經網絡來學習從噪聲圖像到無噪聲圖像的映射。深度學習能夠表示圖像和噪聲的復雜屬性,但是訓練這些模型需要大的成對數據集。因此,大多數基於學習的去噪技術依賴於合成訓練數據。盡管在設計用於去噪的神經網絡方面做了大量的工作,最近的基准測試表明,在對真實的噪聲原始圖像進行評估時,深度學習模型往往比傳統手工設計的算法表現得更好。我們認為,造成這種差異的部分原因是不現實的合成訓練數據。由於噪聲是加性的、白噪聲和高斯噪聲的假設,許多經典算法對真實數據的推廣效果很差。最近的工作已經發現了這種不准確性,並轉移到更復雜的噪聲模型,更好地匹配物理圖像形成。但是,這些技術沒有考慮典型圖像處理管道的許多步驟。為了改善人工訓練數據與真實原始圖像之間的不匹配,一種方法是利用降噪算法所針對的同一攝像機捕獲有噪聲和無噪聲的圖像對。然而,捕捉噪聲和無噪聲的圖像對是困難的,需要長時間曝光或多攝圖像,以及后處理來應對相機的運動和照明變化。獲取這些圖像對既昂貴又耗時,而在訓練神經網絡時,為了防止過度擬合,需要大量的訓練數據,這又加劇了這個問題。此外,由於不同的相機傳感器表現出不同的噪聲特征,將一種學習去噪算法應用到新的相機傳感器可能需要捕獲新的數據集。
圖1 來自Darmstadt噪聲數據集的圖像,其中我們給出(a)噪聲輸入圖像,(b)地面真值無噪聲圖像,(c)先前最先進算法的輸出,以及(d)模型的輸出。四幅圖像均由原始Bayer空間轉換為sRGB進行可視化。每個結果旁邊是三個裁剪的子圖像,用最近鄰插值渲染。更多結果見補充。
當適當建模時,合成數據是簡單和有效的。數字傳感器的物理特性和成像管道的步驟已經得到了很好的理解,可以利用它們從幾乎任何圖像中生成訓練數據,只需要使用目標攝像機傳感器的基本信息。提出了一種對圖像處理管道關鍵部件建模的系統方法,對一般的互聯網圖像進行反處理以生成真實的原始數據,並將傳統的圖像處理操作集成到神經網絡的訓練中。在Darmstadt Noise數據集中對真實的噪聲原始圖像進行評估時,我們的模型的錯誤率降低了14%-38%,比以前的技術水平快了9 -18個百分點。模型輸出的可視化結果如圖1所示。我們的反處理和處理方法還可以在生成我們的綜合訓練數據時,泛化沒有明確建模設備捕獲的圖像。本文從以下幾個方面展開:第2節對相關工作進行了回顧。在第3節中,我們詳細介紹了原始圖像處理管道的步驟,並定義了每個步驟的逆過程。在第4節中,我們提出了將一般的網絡圖像處理為合成原始數據的反處理程序,修改訓練損失以適應原始處理,訓練我們簡單有效的去噪神經網絡模型。在第5節中,我們展示了我們的模型在Darmstadt噪聲數據集上的改進性能,並提供了一個消融研究,隔離了我們方法的各個方面的相對重要性。
3. 相關工作
單幅圖像去噪一直是計算機視覺和圖像處理領域的研究熱點。經典的技術,如各向異性擴散、全變差去噪和小波核取心,在信號和噪聲都表現出特定統計規律的前提下,使用手工設計的算法從噪聲輸入中恢復干凈的信號。這些參數化模型雖然簡單有效,但其容量和表達能力有限,這使得人們對BM3D和非局部均值等非參數、自相似性驅動的技術越來越感興趣。從簡單的分析技術向數據流方法的轉變繼續以詞典學習和KSVD和專家領域等基本搜索算法的形式進行,這些算法通過查找稀疏性保持或統計規律建模良好的圖像表示形式進行操作。在現代,大多數單圖像去噪算法完全是數據驅動的,由深度神經網絡組成,經過訓練可以從噪聲圖像回歸到去噪圖像。最經典的去噪工作是在圖像噪聲為加性、白噪聲和高斯噪聲的假設下進行的。該模型雖然方便、簡單,但並不現實,光子到達傳感器的隨機過程更適合描述為“拍攝”和“讀取”噪聲。整體噪聲可以更准確地建模為包含高斯和泊松信號相關分量或者從一個方差是強度函數的異方差高斯分布中采樣。分析建模圖像噪聲的一種替代方法是使用真實的噪聲和無噪聲圖像的例子。這可以通過捕捉由一對真實照片組成的數據集來實現,其中一張照片是短曝光,因此會產生噪聲,而另一張照片是長曝光,因此基本上沒有噪聲。這些數據集可以觀察到,使用合成數據訓練的最新技術被老模型(如BM3D)所超越。因此,最近的工作通過收集這些真實的、成對的數據顯示出了進展,這些數據不僅用於評估,而且用於訓練模型。這些方法顯示了巨大的希望,但將這種技術應用於特定的相機需要大量的艱苦的收集與僅需要合成訓練數據或校准參數的老技術相比,該攝像機的訓練數據需要完全對齊,大大增加了從業者的負擔。此外,還不清楚該數據集采集程序如何用於捕捉小運動無處不在的對象,如水、雲、樹葉或生物。最近的研究表明,可以使用同一場景的多個噪聲圖像作為訓練數據而不是成對的噪聲和無噪聲圖像,但這並沒有很大程度上減輕這些大型真實照片數據集的局限性或勞動要求。雖然人們普遍認為,在圖像形成過程中對噪聲進行正確的建模是學習有效去噪算法的關鍵,一個較少被深入探討的問題是用於將原始傳感器讀數轉換成最終圖像的圖像處理管道的影響。現代圖像處理管道由幾個步驟組成,這些步驟轉換圖像強度,從而影響輸入噪聲如何縮放或修改,以及最終呈現的圖像如何作為原始傳感器測量的函數出現。在這項工作中,當為我們的模型合成訓練數據時,我們對這些步驟進行建模和反求,並證明這樣做可以顯著提高去噪性能。
4. 圖像處理管線
現代數碼相機試圖呈現一種令人愉快的和對世界的准確形象,類似於被感知到的人類的眼睛。然而,來自相機的原始傳感器數據還不像照片,需要許多處理階段才能將其噪聲線性強度轉換為最終形式。在這一部分,我們描述了一個傳統的圖像處理管道,從傳感器測量到最終圖像。為了能夠生成真實的合成原始數據,我們還描述了管道中的每個步驟如何被倒置。通過這個過程,我們可以把一般的互聯網圖像轉換成訓練對,很好地近似Darmstadt Noise數據集,並推廣到其他原始圖像。有關我們的反處理步驟的概述,請參見圖2。
圖2.一個可視化的數據管道和網絡訓練過程。對MIR Flickr數據集中的sRGB圖像進行反處理,加入了真實感的拍攝和讀出噪聲來合成有噪聲的原始輸入圖像。噪聲圖像通過去噪神經網絡輸入,然后在計算L1損失前對網絡的輸出和無噪聲的原始圖像進行原始處理。
4.1 Shot and Read Noise
雖然經過處理的圖像中的噪聲可能由於像素值之間的非線性和相關性而具有非常復雜的特征,但是原始傳感器數據中的噪聲是很容易理解的。傳感器噪聲主要來自兩個來源:光子到達統計和讀出電路中的不精確。散粒噪聲是一個泊松隨機變量,其均值為真實光強(以光電子測量)。讀出噪聲是一個近似高斯隨機變量,均值為零,方差固定。我們可以把它們近似成一個單一的異方差高斯分布,把每個觀測到的強度y當作一個隨機變量,其方差是真實信號x的函數。
參數$\lambda_{read}$和$\lambda_{shot}$取決於傳感器的模擬和數字增益。對於一些數字增益$g_{d}$,模擬增益$g_{a}$,和固定傳感器讀出方差$\sigma_{r}^{2}$
這兩個增益級別由相機設置,作為用戶選擇的ISO光敏感級別或某些自動曝光算法的直接函數。因此對於特定的曝光$\lambda_{read}$和$\lambda_{shot}$的值可以由相機計算出來,通常作為元數據的一部分存儲附帶原始圖像文件。為了選擇合成圖像的噪聲級別,我們對真實原始圖像中不同的shot/read噪聲參數對的聯合分布進行建模,並從中抽取樣本。針對Darmstadt Noise數據集,提出了一種合理的shot/read噪聲因子采樣方法
有關此過程的可視化,請參見圖3
圖3. Darmstadt數據集shot和read噪聲參數。每個圓大小表示數據集中有多少圖像共享shot/read噪聲對。為了選擇每個合成訓練圖像的噪聲水平,我們從紅色的分布中隨機抽取shot和read噪聲參數。
4.2 Demosaicing
傳統相機傳感器中的每個像素都由一個紅色、綠色或藍色濾光片覆蓋,濾光片按拜耳模式排列,如R-G-G-B。恢復圖像中每個像素的三種顏色測量值的過程是一個被廣泛研究的去馬賽克。Darmstadt數據集遵循了使用雙線性插值進行去馬賽克的慣例,我們采用了這種方法。反轉這個步驟是很簡單的——對於圖像中的每個像素,我們根據Bayer濾鏡模式省略它的三個顏色值中的兩個。
4.3 Digital Gain
相機通常會對所有圖像強度應用數字增益,其中每個圖像的特定增益由相機的自動曝光算法選擇。這些自動曝光算法通常是專有的“黑匣子”,很難對任何單個圖像進行反向工程。但是要將這一步反轉為一對合成和真實數據集,合理的啟發式方法是簡單地找到一個全局縮放,它最能匹配兩個數據集中所有圖像強度的邊際統計量。為了產生這種縮放,我們假設我們的實際和合成圖像強度都來自不同的指數分布
對於x≥0。尺度參數λ的最大似然估計簡單地是樣本均值的倒數,並且縮放x等於λ的逆縮放。這意味着我們可以通過使用兩組樣本均值的比率來匹配兩組指數均勻分布的強度。使用我們的合成數據和Darmstadt數據集時,此縮放比例為1.25。為了更全面的數據增強,並確保在訓練中我們的模型在整個[0,1]中觀察像素強度,我們不使用這種常數尺度,而是從以0.8為中心、標准差為0.1的正態分布中抽取逆增益,從而得到大致跨越[0.5,1.1]的逆增益。
4.3 White Balance
相機記錄的圖像是照亮場景的燈光的顏色和場景中物體的材質顏色的結果。攝像機管道的一個目標是消除光照的一些影響,生成在“中性”光照下被點亮的圖像。這是由白平衡算法執行的,它使用啟發式或統計方法估計圖像中紅色和藍色通道的每個通道增益。從合成數據中反演這一過程具有挑戰性,因為像自動曝光一樣,相機的白平衡算法是未知的,因此很難進行反向工程。然而,像Darmstadt這樣的RAW圖像數據集記錄了它們圖像的白平衡元數據,因此我們可以簡單地從該數據集中白平衡增益的經驗分布中取樣,從而合成一些較為真實的數據。紅色增益在[1.9,2.4],藍色增益在[1.5,1.9],均勻獨立采樣
在合成訓練數據時,我們對數字和白平衡的逆增益進行采樣,並利用它們的結果得到用於合成數據的每個通道的逆增益。這種反向增益幾乎總是小於聯合,這意味着天真地獲取合成圖像將導致數據集系統地缺少高光,幾乎不包含裁剪像素。這是有問題的,因為正確處理飽和圖像強度在去噪時是至關重要的。為了說明這一點,我們不把我們的逆增益1/g用簡單的乘法應用到某個強度x上,而是我們應用保強變換f(x,g),當g≤1或對於一些閾值t = 0.9 x≤t時是線性的,但是當g > 1,x > t時是一個立方變換:
這個變換被設計成當x<=t時f(x,g) = x/g,當g<=1時f(1,g) =1,f(x,g)是連續可微的。這個函數用圖形4表示。
圖4 函數f(x,g)(定義在公式6中)我們用於在保持高光的同時降低合成圖像的強度x,得到一組具有代表性的增益{g}。
4.5 Color Correction
一般來說,相機傳感器的濾色器與sRGB顏色空間所期望的光譜不匹配。為了解決這個問題,相機將應用一個3x3顏色校正矩陣(CCM)來將自己的相機空間RGB顏色測量轉換為sRGB值。Darmstadt數據集由四個攝像頭組成,每個攝像頭在進行色彩校正時使用自己的固定CCM。為了生成能夠推廣到數據集中所有相機的合成數據,我們對這四種CCM的隨機凸組合進行采樣,對於每一幅合成圖像,我們應用采樣CCM的逆來撤銷顏色校正的效果。
4.6 Gamma Compression
由於人類對圖像黑暗區域的漸變更加敏感,伽瑪壓縮通常用於將更多動態范圍的比特分配給低強度像素。我們使用標准gamma曲線,同時注意將輸入鉗位到$\epsilon=10^{-8}$的伽馬曲線,以防止訓練期間數值不穩定:
在生成合成數據時,我們應用此運算符的(略微近似,由於\epsilon)逆。
圖5 (a)來自MIR Flickr數據集的sRGB圖像的每個顏色通道的直方圖;(b)按照第4.1節列舉並在第3節詳細說明的過程創建的未處理圖像;(c)來自Darmstadt數據集的真實原始圖像。注意,真實原始強度的分布和我們的未加工強度是相似的。
4.7 Tone Mapping
高動態范圍的圖像需要極端的色調映射,即使是標准的低動態范圍的圖像,也經常使用s形曲線來處理,以匹配電影的特征曲線。可以執行更復雜的具有邊緣感知的本地音調映射,但是對這種操作進行反向工程是困難的。因此,我們假設色調映射是用一個簡單的平滑步長曲線執行的,並且在生成合成數據時使用該曲線的逆。
$smoothstep(x)=3x{2}-2x{3}(9)$
$smoothstep{-1}(y)=\frac{1}{2}-sin(\frac{sin{-1}(1-2y)}{3})(10)$
其中,兩者僅在[0,1]中的輸入上定義。
5. 算法介紹
現在我們已經定義了圖像處理管道的每個步驟和每個步驟的逆,我們可以構建去噪神經網絡模型。用於訓練我們網絡的輸入和真實狀況是使用圖像處理管道的逆處理的未處理的合成數據,其中輸入圖像已被噪聲損壞。在評估損失最小化之前,我們的網絡的輸出和地面實況由我們的管道進行處理。
5.1 Unprocessing Training Images
為了生成真實的合成RAW數據,我們通過對圖像處理轉換進行順序逆變來對圖像進行反處理,如圖2所示。這包括逆變,按順序,色調映射(3.7節),應用伽瑪解壓(3.6節),將sRGB應用到相機RGB色彩校正矩陣(3.5節),以及逆變白平衡增益(3.4節)和數字增益(3.3節)。得到的合成RAW圖像在訓練期間用作無噪聲真實狀況,並且添加了shot和read噪聲(第3.1節)以創建嘈雜的網絡輸入。我們合成的RAW圖像更接近真實的原始強度,如圖5所示。
圖6 我們模型網絡結構。輸入到網絡的是一個4通道噪聲拼接圖像與一個4通道噪聲級圖連接,輸出是一個4通道去噪拼接圖像。
5.2 Processing Raw Images
由於RAW圖像在被查看之前最終要經過一個圖像處理管道(ISP),因此我們模型的輸出圖像在評估任何損失之前也應該受到這個管道的約束。因此我們RAW處理應用到我們的模型的輸出,依次由應用白平衡收益(3.4節),雙線性去馬賽克(3.2節),應用色彩校正矩陣從相機RGB轉換到sRGB(3.5節),和gamma壓縮(3.6節)。這個簡化的圖像處理管道與Darmstadt噪聲數據集基准中使用的管道相匹配,對於一般的圖像管道是一個很好的近似。在計算損失之前,我們將此處理應用於網絡輸出和地面真值無噪聲圖像。將這個管道合並到訓練中,可以讓網絡推斷出下游處理將如何影響所需的去噪行為。
5.3 網絡結構
我們的去噪網絡以Bayer域中的噪聲原始圖像作為輸入,在同一域中輸出降噪圖像。作為一個額外的輸入,我們根據圖像的shot和read噪聲參數,通過網絡對輸入圖像中的噪聲標准差進行逐像素估計。這些信息作為4個額外通道連接到輸入端,每個通道對應於R-G-G-B拜耳平面。我們使用U-Net架構,在編碼器和解碼器塊之間具有相同規模的跳躍連接(詳見圖6),編碼時采用盒下采樣,解碼時采用雙線性上采樣,PReLU激活函數。我們的模型沒有直接預測去噪圖像,而是預測一個被添加回輸入圖像的殘差。
5.4 訓練
為了創建我們的合成訓練數據,我們從MIR Flickr擴展數據集的100萬張照片開始,留出5%的數據集用於驗證,5%用於測試。我們通過使用高斯2x內核(σ= 1)下采樣,以減少噪聲的影響,量化,JPEG壓縮,去馬賽克和其他artifact。然后,我們對每個圖像隨機裁取128x128,隨機水平和垂直翻轉進行數據增強。我們通過應用4.1節中描述的反處理步驟來合成噪聲和干凈的原始訓練對。我們使用Adam進行訓練,學習率為$10^{-4}$,$\beta _{1}=0.9$,$\beta _{2}=0.999$,$\epsilon=10^{-7}$,批大小為16。我們的模型和燒蝕被訓練在一個單一的NVIDIA Tesla P100 GPU上集中超過約3.5百萬步,這需要3天。
我們訓練了兩個模型,一個針對sRGB錯誤度量的性能,另一個針對RAW錯誤度量的性能。對於我們的sRGB模型,在計算損失之前,網絡輸出和合成地面真值都被轉換到sRGB空間,如4.2節所述。我們“RAW”模型直接計算我們的網絡輸出和我們的RAW合成地面真值之間的損失,沒有這個處理。對於這兩種實驗,我們都將輸出圖像與地面真值圖像之間的L1損耗最小化。
6. 測試
為了評估我們的技術,我們使用了Darmstadt噪聲數據集,它是50幅真實高分辨率圖像的基准,其中每幅高iso噪聲圖像都與(幾乎)無噪聲的低iso地面真值圖像相匹配。Darmstadt數據集代表了對早期去噪基准的顯著改進,去噪基准往往依賴於合成數據和合成(通常是不現實的)噪聲模型。Darmstadt數據集的額外優勢,它包含從四個不同的標准消費相機拍攝的圖像在野外的自然場景的內容,在相機元數據捕獲和相機仔細校准噪聲特性,以及圖像的強度代表了RAW未經處理的線性強度。該數據集的另一個有價值的特性是,通過一個精心控制的在線提交系統,對數據集的評估受到了限制:整個數據集是測試集,對公眾完全隱藏了地面真實的無噪聲圖像,提交數據集的頻率是有限的。因此,很難與此基准測試集過擬合。雖然這種方法在目標識別和立體的挑戰中很常見,但在圖像去噪中並不常見。我們在Darmstadt數據集上的模型相對於先前工作的性能如表1所示。Darmstadt數據集將其評估分為多個類別:使用或不使用方差穩定變換的算法,以及使用線性拜耳傳感器讀數或使用雙線性去噪sRGB圖像作為輸入的算法。每一種對RAW輸入進行操作的算法,在轉換到sRGB空間后,對原始Bayer圖像和經過去噪的Bayer輸出進行評估。按照Darmstadt數據集的過程,我們對每種技術的raw和sRGB輸出報告PSNR和SSIM。一些算法只對sRGB輸入進行操作;為了盡可能公平地對待以前的所有工作,我們提出了這些模型,並在sRGB空間中報告了它們的評估。對於使用和不使用方差穩定變換(VST)進行評估的算法,我們將性能更好的版本包括在內。
表1. 我們的模型及其在Darmstadt噪聲數據集上的性能,與提交時從https://noise.visinf.tu-darmstadt.de/benchmark/獲得並按sRGB PSNR排序的所有已發布技術相比。對於基准測試方法,無論是否使用方差穩定轉換(VST),我們報告哪個版本的性能更好,並相應地在算法名稱中表明。我們報告使用RAW數據或sRGB數據作為輸入的基線技術,由於這個基准測試沒有根據RAW輸出評估sRGB-輸入技術,因此這些技術缺少RAW錯誤度量。對於每種技術和度量,我們在括號中報告相對的改進,這是通過將PSNR轉換為RMSE,將SSIM轉換為DSSIM,然后計算相對於性能最好的模型的誤差減少來完成的。我們的模型在一個單獨的子表中給出了燒蝕。每個度量的前三種技術(忽略燒蝕)都是彩色編碼的。運行時在可用時顯示(參見5.1節)
我們模型的兩個變體(一個針對sRGB,另一個針對raw)在所有輸出中產生的psnr和SSIMs顯著高於所有基線技術,每個模型變體在其目標領域的性能都優於其他變體。在PSNR和SSIM上的相對改進很難判斷,因為這兩個指標都被設計成在錯誤變得很小時達到飽和。為了幫助解決這個問題,在每個錯誤的旁邊,我們在括號中報告性能最好的模型相對於該模型的錯誤的相對減少。這是通過將PSNR轉換為RMSE (RMSE$\alpha \sqrt{10^{-PSNR/10}}$,將SSIM轉換為DSSIM (DSSIM = (1-SSIM)/2),然后計算每個相對誤差的減少。
我們看到,我們的模型在兩個RAW指標上的誤差比性能第二好的技術(N3Net)減少了14%和25%,在兩個sRGB指標上的誤差比性能第二好的技術(N3Net、CBDNet)減少了21%和38%。與其他方法相比,我們模型輸出的可視化結果可以在圖1和補充中看到。與基線相比,我們模型在輸出中低頻色度偽影減少,這在一定程度上提高了性能。
為了驗證我們的方法適用於其他數據集和設備,我們對HDR+數據集的RAW圖像去噪方法進行了評估。圖7和補充材料中提供了這些評估的結果。
圖7 來自HDR+數據集圖像,其中我們以與圖1相同的格式表示(a)有噪聲的輸入圖像和(b)模型的輸出。更多結果見補充。
除了我們感興趣的兩個主要模型外,我們還對我們的模型(sRGB)進行了消融研究,即移除一個或多個模型組件。無CCM、WB、增益表明,在生成合成訓練數據時,我們沒有執行sRGB對相機RGB CCM反演的反處理步驟,也沒有對白平衡和數字增益進行反演。沒有色調映射,Gamma表示我們沒有執行逆色調映射或Gamma解壓縮的反處理步驟。沒有反處理表示我們沒有執行任何反處理步驟,4 bigger表示我們將每個conv層的通道數量增加了3倍。Noise-blind是指沒有將噪聲電平作為輸入提供給網絡。AWGN表明,不使用我們更現實的噪聲模型當合成訓練數據時,我們使用的加性高斯白噪聲σ在0.001~0.15之間均勻取樣。沒有殘差輸出表明我們的模型架構直接預測輸出圖像,而不是預測添加到輸入中的殘差。
我們從消融研究中看到,移除我們提出的任何模型組件都會降低質量。性能對我們的噪聲建模最為敏感,因為使用高斯噪聲會顯著降低性能。反處理也有很大的貢獻,尤其是在使用sRGB度量進行評估時,盡管它比實際的噪聲模型稍微小一些。值得注意的是,增加網絡大小並不能彌補未處理步驟的缺失。我們唯一的消融研究,實際上刪除了神經網絡架構的一個組件(殘留輸出塊),導致最小的性能下降。
6.1 運行時間
表1還包括我們能夠找到的盡可能多的模型的運行時間。這些運行時間中的許多都是在不同的硬件平台上以不同的計時約定產生的,因此我們在這里詳細介紹這些數字是如何產生的。對於Darmstadt數據集的512x512幅圖像,我們的模型的運行時為22ms,使用運行在單個NVIDIA GeForce GTX 1080Ti GPU上的TensorFlow實現,不包括將數據傳輸到GPU所花費的時間。我們報告平均值超過100次。DnCNN的運行時間取自[41],[41]報告了512x512圖像在GPU (Nvidia Titan X)上60ms的運行時間,也不包括GPU內存傳輸時間。N3Net[31]的運行時間取自該論文,該論文報告的運行時間為[41]的3.5倍,建議運行時為210ms。在[6]中,它們為CPU實現在512x512映像上報告60秒的運行時間,並注意到它們的運行時間小於KSVD[2],我們相應地注意到這一點。CBDNet的運行時間取自[18],BM3D、TNRD、TWSC、MCWNNM的運行時取自[39]。我們無法在表1中找到其他技術的運行時間報告,盡管在[30]中他們注意到許多基准算法太慢,無法應用於百萬像素大小的圖像。我們的模型是速度最快的技術:比N3Net[31]快9倍,比CBDnet[18]快18倍,這兩個是僅次於我們自己的技術。
7. 結論
我們提出了一種通過對攝像機圖像處理管道的每個步驟進行建模和逆變,將普通圖像處理成類似於真實攝像機傳感器捕獲的原始測量的數據的技術。這使得我們能夠訓練卷積神經網絡去噪原始圖像數據,我們從大量可用的互聯網圖像中合成了大量真實的噪聲/干凈的成對訓練數據。此外,通過將標准的圖像處理操作合並到學習過程中,我們能夠訓練一個網絡,使其在評估輸出之前能夠明確地知道如何處理輸出。當我們得到的學習模型應用於Darmstadt噪聲數據集時,它比以前的技術水平低14%- 38%的錯誤率和9 -18的運行時間。