補充知識:圖像質量評價指標之 PSNR 和 SSIM(https://zhuanlan.zhihu.com/p/50757421)
https://www.github.com/richzhang/PerceptualSimilarity
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric
Abstract
雖然對人類來說,快速評估兩幅圖像之間的感知相似性幾乎毫不費力,但其潛在的過程被認為是相當復雜的。盡管如此,目前最廣泛使用的感知指標,如PSNR和SSIM,都是簡單、淺顯的函數,無法解釋人類感知的許多細微差別。最近,深度學習社區發現,在ImageNet分類上訓練的VGG網絡的特征作為圖像合成的訓練損失非常有用。但是這些所謂的“感知損失(perceptual loss)”有多感知呢?他們成功的關鍵因素是什么?為了回答這些問題,我們引入了一個新的人類感知相似度判斷數據集。我們系統地評估不同架構和任務的深層特性,並將它們與經典的度量進行比較。我們發現深度特征在數據集上的表現比之前的所有指標都要好。更令人驚訝的是,這個結果並不局限於imagenet訓練過的VGG特性,而是適用於不同的深層架構和監督級別(監督、自監督甚至非監督)。我們的結果表明,感知相似性是一種涌現的特性,在深度視覺表征中共享。
1. Motivation
比較數據項的能力可能是所有計算基礎上最基本的操作。在計算機科學的許多領域中,它並不構成太大的困難:人們可以使用Hamming距離來比較二進制模式,編輯距離來比較文本文件,使用歐幾里德距離來比較向量,等等。計算機視覺所面臨的獨特挑戰是,即使是比較視覺模式這一看似簡單的任務仍然是一個懸而未決的問題。視覺模式不僅是非常高維的和高度相關的,而且,視覺相似性的概念往往是主觀的,旨在模仿人類的視覺感知。例如,在圖像壓縮中,目標是讓人眼無法區分被壓縮的圖像與原始圖像,而不考慮它們的像素表示可能非常不同這一事實。
經典的逐像素測量,如l2歐氏距離,通常用於回歸問題,或相關的峰值信噪比(PSNR),對於評估像圖像這樣的結構化輸出是不夠的,因為它們假定像素獨立性。一個著名的例子是模糊導致大的感知但小的l2變化。
我們真正想要的是一種“感知距離”,它可以衡量兩幅圖像在某種程度上有多相似,同時符合人類的判斷。這個問題一直是一個長期的目標,也有許多感知驅動的距離指標被提出,如SSIM[58]、MSSIM[60]、FSIM[62]和HDR-VDP[34]。
然而,構建一個感知度量是一項挑戰,因為人類對相似度的判斷(1)依賴於高階圖像結構[58],(2)依賴於上下文[19,36,35],(3)可能實際上並不構成距離度量[56]。(2)的關鍵是有許多不同的“相似感”,我們可以同時記住:一個紅色的圓更像一個紅色的正方形還是一個藍色的圓?直接將一個函數擬合到人類判斷上可能是棘手的,因為判斷(比較兩幅圖像之間的相似性)依賴於上下文和成對的性質。事實上,我們在本文中展示了這種方法不能推廣的負面結果,即使是在包含許多類型的大規模數據集上訓練時也是如此。
相反,有沒有一種方法可以讓我們在不經過直接訓練的情況下學習感知相似性的概念?計算機視覺領域已經發現,深度卷積網絡的內部激活,盡管是在高級圖像分類任務上訓練的,但作為更廣泛的任務的表征空間,通常是非常有用的。例如,來自於VGG架構[52]的特性已經被用於諸如神經風格轉移[17]、圖像超分辨率[23]和條件圖像合成等任務[14,8]。這些方法將VGG特征空間中的距離作為圖像回歸問題的“感知損失”來度量[23,14]。
但是這些“感知損失”在多大程度上與人類的視覺感知相對應呢?它們與傳統的感知圖像評估指標相比如何?網絡架構重要嗎?它是否必須在ImageNet分類任務上進行訓練,或者其他任務也可以正常工作?這些網絡需要接受訓練嗎?
在這篇論文中,我們在一個新的大規模的人類判斷數據庫上評估這些問題,並得出了幾個驚人的結論。我們發現,為高級分類任務而訓練的網絡的內部激活,即使是跨網絡架構[20,28,52],而且沒有進一步的校准,確實符合人類感知判斷。事實上,它們比常用的度量標准(如SSIM和FSIM)要好得多[58,62],后者不是為處理空間歧義是一個因素[49]的情況而設計的。此外,性能最好的自監督網絡,包括BiGANs[13]、cross-channel prediction [64]和puzzle solving[40],即使沒有人工標記訓練數據的好處的情況下,在這個任務中也表現得很好。即使是使用stacked k-means[26]的簡單的無監督網絡初始化,也大大超過了經典的度量標准!這說明了這是一個跨網絡,甚至跨架構和訓練信號共享的emergent屬性。然而,重要的是,擁有一些訓練信號是至關重要的——一個隨機初始化的網絡會獲得更低的性能。
我們的研究是基於一個新收集的感知相似數據集,該數據集使用大量的扭曲和真實的算法輸出。它既包含傳統的失真,如對比度和飽和度調整、噪聲模式、濾波和空間扭曲操作,也包含基於CNN的算法輸出,如自編碼、去噪和着色,其由各種架構和損失產生。我們的數據集比以前的[45]數據集更加豐富和多樣化。我們還收集了對超分辨率、幀插值和圖像去模糊等任務的真實算法輸出的判斷,這是特別重要的,因為這些是感知度量的真實使用案例。我們表明,我們的數據可以用來“校准”現有的網絡,通過學習一個簡單的線性層次的激活,以更好地匹配低層次的人類判斷。
我們的結果與這個假設是一致的,即感知相似性並不是一個單獨的特殊功能,而是一種預測世界重要結構的視覺表征的結果。在語義預測任務中有效的表征同時也是歐氏距離對感知相似度判斷具有高度預測性的表征。
我們的貢獻如下:
- 我們引入了一個包含大小為484k的人類判斷的大規模、高度變化的感知相似數據集。我們的數據集不僅包括參數化失真,還包括真實的算法輸出。我們也在不同的感知測試中收集判斷,即明顯的差異(JND)。
- 我們展示了深層特征,在有監督、自我監督和無監督的目標上進行了類似的訓練,對低層次感知相似度的建模效果驚人地好,優於以前廣泛使用的指標。
- 我們證明了網絡架構本身並不能說明性能:未經訓練的網絡可以獲得更低的性能。
- 通過我們的數據,我們可以通過“校准”預先訓練好的網絡的特征響應來提高性能。
Prior work on datasets.為了評價現有的相似性度量,提出了一些數據集。一些最受歡迎的是LIVE[51],TID2008 [46], CSIQ[29],和TID2013[45]數據集。這些數據集被用作全參考圖像質量評估(FR-IQA)數據集,並作為事實上的基線用於開發和評估相似度指標。一個相關的工作是無參考圖像質量評估(NR-IQA),如AVA[38]和LIVE In the Wild[18]。這些數據集自己調查單個圖像的“質量”,沒有參考圖像。我們收集了一個新的數據集來補充這些:它包含了大量的扭曲,包括一些來自更新的、深度網絡的輸出,以及幾何扭曲。我們的數據集中於感知相似度,而不是質量評估。此外,在自然環境下,它是通過不同的實驗設計在小塊上而不是完整的圖像上收集的(更多細節見Sec 2)。
Prior work on deep networks and human judgments. 最近,DNNs的進展已經推動了在視覺相似度和圖像質量評估方面的應用研究。Kim和Lee[25]使用CNN通過對低水平差異的訓練來預測視覺相似性。Talebi和Milanfar的並發工作[54,55]是在NR-IQA背景下為圖像美學訓練了一個深度網絡。Gao等人[16]和Amirshahi等人[3]提出了一些技術,包括利用帶有額外的多尺度后處理的深層網絡(分別是VGG和AlexNet)的內部激活。在這項工作中,我們在一個新的、大規模的、高度變化的數據集上跨不同架構、訓練信號進行了更深入的研究。
最近,Berardino等人[6]在感知相似度上對網絡進行訓練,重要的是,評估了深度網絡在一項單獨任務上進行預測的能力——預測最明顯和最不明顯的扭曲方向。同樣,我們不僅評估參數化失真的圖像塊的相似性,還測試對真實算法的泛化,以及對單獨感知任務的泛化——只是用於顯著差異。
2. Berkeley-Adobe Perceptual Patch Similarity (BAPPS) Dataset
為了評估不同感知指標的性能,我們使用兩種方法收集了大規模高度不同的感知判斷數據集。我們的主要數據收集采用了兩種不同的可選擇的forced choice (2AFC)測試,即兩種扭曲中哪一種更類似於參考。第二個實驗驗證了這一點,在這個實驗中,我們執行了一個顯著差異(JND)測試,該測試詢問兩個patches——一個參考和一個扭曲——是相同還是不同。這些判斷被收集在一個廣闊的扭曲和真實的算法輸出空間。
2.1. Distortions
我們創建了一組由在輸入patches上執行的常見操作組成的“傳統”扭曲方法,如表2(左)所示。通常,我們使用光度失真、隨機噪聲、模糊、空間移位和破壞以及壓縮工件。我們在圖2中展示了我們傳統扭曲的定性例子。
每個擾動的嚴重程度都是可參數化的——例如,對於高斯模糊,核寬決定了對輸入圖像的破壞程度。我們還按順序組合成對的扭曲方法,以增加可能的扭曲的整體空間。總共,我們有20個扭曲方法以及308個序列組合成的扭曲方法
CNN-based distortions. 為了更接近地模擬基於深度學習的方法所產生的偽影空間,我們創建了一組由神經網絡創建的扭曲方法。我們通過探索各種任務、架構和損失來模擬可能的算法輸出,如表2(右)所示。這些任務包括自動編碼、去噪、着色和超分辨率。所有這些任務都可以通過對輸入應用適當的損壞來實現。我們總共生成了96個“去噪自動編碼器”,並使用這些作為基於CNN的扭曲函數。我們在1.3M ImageNet數據集[47]上訓練每個網絡1個epoch。每個網絡的目標不是解決任務本身,而是探索影響基於深度學習方法輸出的常見問題。
Distorted image patches from real algorithms. 對一種圖像評估算法的真正檢驗是對真實問題和真實算法的檢驗。我們利用這些輸出來收集感性判斷。真實算法上的數據更為有限,因為每個應用程序都有自己獨特的屬性。例如,不同的着色方法不會表現出很大的結構變化,但容易出現色漏、色變等效果。另一方面,超分辨率將不會有顏色模糊,但可能看到從算法到算法的更大的結構變化。
Superresolution. 我們對2017年NTIRE workshop[2]的結果進行評估。我們使用來自workshop的3條track- 使用x2,x3,x4的上采樣率,使用“unknown”下采樣來創建輸入圖像。每條track都有大約20個算法提交。我們還評估了幾種其他的方法,包括bicubic上采樣方法和四種性能最好的深度超分辨率方法[24,59,31,48]。一種常見的表示超分辨率結果的定性方法是放大到特定的patch並比較他們的差異。因此,我們從Div2K[2]數據集(ground truth高分辨率圖像)的圖像的隨機位置中隨機采樣64×64大小的triplets數據,同時伴隨着兩個算法輸出。
Frame interpolation.在Davis Middleburry數據集[50]上,我們對來自不同幀插值算法的patch進行采樣,包括三種不同的基於流的插值[33]、基於cnn的插值[39]和基於相位的插值[37]。由於幀插值產生的偽影可能在不同的尺度下發生,因此我們在采樣一個patch triplet之前對圖像進行隨機縮放。
Video deblurring.我們從視頻去模糊數據集[53]中采樣,以及從Photoshop Shake Reduction, Weighted Fourier Aggregation[11]和三種不同的深度視頻去模糊方法[53]中輸出的去模糊結果。
Colorization.我們在着色任務中對來自ImageNet數據集[47]的圖像使用隨機比例采樣patch。算法來自pix2pix [22], Larsson等人[30],以及Zhang等人[63]方法的變體。
2.2. Psychophysical Similarity Measurements
2AFC similarity judgments.我們隨機選擇一個圖像patch x並應用兩種扭曲方法來產生patch x0,x1。然后我們詢問一個人哪張圖更接近原始patch x,並記錄下回答 h∈{0,1}。平均而言,人們在每次判斷上花了大約3秒。設表示我們的patch triplets數據集(x, x0, x1, h)。
(這個方法其實就是將原圖中一個patch進行不同種類的變換(這里有常規算法的變換和基於CNN的變換),然后讓人來判斷變換后的結果中哪一個更為接近原來的patch)
我們的數據集和以前的數據集的比較如表1所示。
以前的數據集中於對少數圖像和失真類型收集大量的人類判斷。例如,最大的數據集TID2013[45]對3000個扭曲圖(來自25個輸入圖像,24種扭曲類型,每個在5個級別采樣,25*24*5=3000)有500k的判斷。我們提供了一個補充的數據集,相反的是其專注於大量的扭曲類型。另外,我們對大量的64×64 patch進行判斷,而不是對少量的圖像進行判斷。有三個原因。首先,全圖像的空間非常大,這使得用判斷覆蓋區域的合理部分變得非常困難(即使是64×64的彩色塊也代表了一個難以處理的12k維空間)。其次,通過選擇較小的patch大小,我們將重點放在較低級別的相似方面,以減輕高級語義[36]對不同“相似方面”的影響。最后,現代圖像合成方法對基於patch的損失(實現為卷積)的深度網絡進行訓練[8,21]。我們的數據集包含超過161k個patch,這些patch來自於用於訓練的MIT-Adobe 5k數據集[7](5000張未壓縮圖像),以及用於驗證的RAISE1k數據集[10]。
為了實現大規模收集,我們的數據是在Amazon Mechanical Turk的“in-the-wild”上收集的,而不是在受控的實驗室設置下。Crump等人的[9]表明,盡管AMT不能控制所有的環境因素,但它可以可靠地用於復制許多心理物理學研究。我們要求每個例子在我們的“訓練”集合中有2個判斷(即一張圖和另外兩個扭曲圖做對比得到判斷兩者是否相同的兩個判斷結果),在我們的“val”集合中有5個判斷。要求更少的判斷能讓我們探索更大的一組圖像patch和扭曲。我們加入由具有明顯變形的小patch對組成的哨兵,例如大量的高斯噪聲與少量的高斯噪聲。大約90%的Turkers能夠正確的通過93%的哨兵(15個中的14個),這表明他們理解任務並且集中注意力。我們選擇使用比之前的數據集更多的扭曲。
Just noticeable differences (JND).2AFC任務的一個潛在缺點是,它是“認知可滲透的”,也就是說,參與者可以有意識地選擇在完成任務[36]時,他們會選擇關注哪些相似方面,這將主觀性引入到判斷中。為了驗證這些判斷實際上反映了一些客觀和有意義的東西,我們還收集了用戶對“just noticeable differences”(JNDs)的判斷。我們展示一幅參考圖像,然后是一幅隨機扭曲的圖像,然后問一個人這兩幅圖像是相同的還是不同的(類似訓練網絡去分類)。這兩個圖像patch分別顯示1秒,間隔250ms。兩個看起來相似的圖像很容易混淆,一個好的感知度量將能夠從最易混淆到最不容易混淆對排序。像這樣的JND測試可能被認為不那么主觀,因為每個判斷都有一個正確的答案,而且參與者被假定知道正確的行為需要什么。在我們的傳統驗證集和基於CNN的驗證集中,我們為每個4.8k個patch收集了3個JND觀測值。每個目標圖被展示了160對,帶有40個哨兵(32個相同的,8個帶有大的高斯噪聲失真)。我們還提供了一個10對的短期訓練,其中包括4對“相同”的,1對明顯不同的,和5對“不同”的,由我們的扭曲方法產生的。我們這樣做是為了引導用戶期望大約40%的patch對是相同的。事實上,36.4%的配對被標記為“相同”(包括70.4%的哨兵和27.9%的測試對)。
這個方法其實就是拿一張圖和基於該圖變換的圖來找人來進行判斷,看這兩張圖是否是一樣的
3. Deep Feature Spaces
我們評估不同網絡中的特征距離。對於給定的卷積層,我們計算余弦距離(在channel維度)和網絡的空間維度和層的平均。我們還將討論如何在數據上優化現有網絡。
網絡架構。我們評估了SqueezeNet[20]、AlexNet[28]和VGG[52]架構。我們使用來自VGG網絡的5個conv層,這已經成為圖像生成任務的事實標准[17,14,8]。我們還將其與較淺的AlexNet網絡進行比較,后者可能更接近人類視覺皮層的結構[61]。我們使用了[27]中的conv1-conv5層。最后,SqueezeNet架構被設計成非常輕量(2.8 MB)的大小,具有與AlexNet相似的分類性能。我們使用第一個conv層和一些隨后的“fire”模塊。
我們還評估了自監督的方法,包括puzzle-solving [40], cross-channel prediction [63, 64], learning from video [43]和generative modeling [13]。我們使用來自這些和其他方法的公開可利用的網絡,其使用了AlexNet[28]的變體。
Network activations to distance. 圖3和等式1說明了如何在網絡中獲得參考和扭曲patches x、x0之間的距離。
(其實這個實現很簡單,就是用不同圖的特征來計算距離,然后再用距離判斷那個相似度更高。其他部分都是在講作者如何說明這個方法的效果是比其他方法效果好的,並說明使用什么樣的網絡效果更好等)
從L層抽取特征stack,然后在channel維度unit-normalize,然后將結果標記為層l的。然后通過向量
在channel維度縮放激活,並計算L2距離。最后,在空間上平均並基於channel求和。注意使用
等價於計算cosine距離:
Training on our data. 我們考慮幾個不同的用於訓練我們的感知判斷的變體:lin, tune,和scratch。對於lin的配置,我們保持預先訓練好的網絡權值是固定的,並在上面學習線性權值w(即圖3中的w,橙色)。這構成了現有特征空間中幾個參數的“感知校准”。例如VGG網絡,學習了1472個參數。對於tune配置,我們從一個預先訓練好的分類模型進行初始化,並允許對網絡
的所有權重進行微調。最后,對於scratch,我們從隨機高斯權值初始化網絡,並完全根據我們的判斷訓練它。總的來說,我們把這些稱為我們提出的Learned Perceptual Image Patch Similarity (LPIPS) 度量的變體。我們在圖3(右)中說明了訓練損失函數,並在附錄中進行了進一步的描述。
附錄補充圖3(右):
我們在圖3(右)中說明了訓練網絡的損失函數,並在補充材料中進一步描述。給定兩個距離,(d0, d1),我們培養一個小網絡G映射到一個分數hˆ∈(0,1)。網絡結構上使用兩個32-channels的FC-ReLU層,其次是一層1-channel 的FC層和sigmoid。我們的最終損失函數如方程2所示:
在初步的實驗中,我們還嘗試了排序損失,它試圖使patch對d(x, x0)和d(x, x1)之間的邊界保持不變。我們發現,使用一個學習過的網絡,而不是在所有情況下強制執行相同的邊界,效果更好。
在這里,我們提供了一些關於訓練在扭曲圖像上的我們的網絡哦的模型訓練的額外細節。我們在初始學習速率為10−4時訓練5個epoch,然后是5個帶有線性衰減的epoch,batch size為50。每個訓練patch對進行2次判斷,並將判斷結果組在一起。例如,如果將這兩個判斷拆分,那么分類目標(圖3中的h)將被設置為0.5。我們在線性層w上執行非負權值,因為在某個特征上較大的距離不應該導致兩個patch在距離度量上變得更近。這是通過在每次迭代中將權重投射到約束集來實現的。換句話說,我們檢查任何負權值,並使它們為0。本項目使用PyTorch[42]實現。
4. Experiments
在驗證集中的結果展示在圖4。
我們首先評估我們的指標和網絡的工作情況。所有驗證集對每個三元組包含5對判斷。因為這是一個固有的有噪聲的過程,我們計算一個算法與所有的判斷的一致性。例如,如果x0有4個偏好,x1有1個偏好,那么預測更受歡迎的選擇x0的算法將獲得80%的credit。如果一個給定的例子在一個方向得分為p,而在另一個方向得分為1−p,那么一個人的預期得分為p2 +(1−p)2。
(如果人類選擇了分數為{p,1−p}的patch {x1,x0},那么oracle的理論最大值為max(p, 1−p)。然而,人類的性能較低。如果agent以概率{q,1−q}選擇它們,那么agent將在預期上同意qp +(1−q)(1−p)人。對於人類agent來說, q = p,所以預期的人類得分是p2 +(1−p)2。)
4.1. Evaluations
How well do low-level metrics and classification net- works perform? 圖4顯示了各種低級度量(紅色顯示)、深度網絡和人類天花板(黑色顯示)的性能。圖4(左)中的分數是2個扭曲測試集(傳統的+基於cnn的)的平均值,圖4(右)中的分數是4個真實算法基准(超分辨率、幀插值、視頻去模糊、彩色化)的平均值。每個測試集中的所有分數都顯示在附錄中。在所有6個測試集中,人類的一致性平均值為73.9%。有趣的是,即使模型大小不同——SqueezeNet (2.8 MB)、AlexNet (9.1 MB)和VGG (58.9 MB)(只有convolutional layer被計算在內),被監督的網絡之間的執行效率也差不多,分別為68.6%、68.9%和67.0%。它們的表現都優於傳統指標l2、SSIM和FSIM,分別為63.2%、63.1%和63.8%。盡管SSIM十分常用,但它不是為幾何扭曲是一個大的影響因素[49]的這種情況設計的。
Does the network have to be trained on classification? 在圖4中,我們展示了模型在各種無監督和自監督任務中的性能(綠色顯示)—— 其中包含使用BiGANs[13]進行生成建模、BiGANs [13], solving puzzles [40], cross-channel prediction [64]和segmenting foreground objects from video [43]。這些自我監督的任務的執行與分類網絡是一樣的。這表明,跨大頻譜的任務可以誘導出能很好地轉移到感知距離的表征。此外,stacked k-means方法[26](用黃色顯示)的性能優於低級度量標准。用橙色表示的隨機網絡,權值來自高斯分布,並不能產生很大的改進。這表明,網絡結構的組合,以及在數據更密集的方向上的定向過濾器,可以更好地關聯感知判斷。
在表5中,我們使用總結在[64]的結果,包括額外的自我監督方法[1,44,12,57,63,41],探索了我們的感知任務與PASCAL數據集[15]上的語義任務的關聯程度。我們通過不同的方法計算每個任務(感知或語義)之間的相關系數。我們的2AFC扭曲偏好任務與分類和檢測的相關性分別為0.640和0.363。有趣的是,該值與分類任務和檢測任務之間的相關性(0.429)結果相似,盡管兩者都被認為是“高級”語義任務,而我們的感知任務是“低級”的。
Do metrics correlate across different perceptual tasks? 我們測試了2AFC扭曲偏好測試的訓練是否與另一個知覺任務JND測試相對應。我們根據給定的度量對patch進行升序排序,並在基於cnn的扭曲中計算精確度和召回 —— 對於一個好的度量,靠近的patch更有可能因為是相同的而被混淆。我們計算曲線下的面積,也就是mAP[15]。2AFC扭曲偏好測試在對不同扭曲類型的結果進行平均時,與JND: ρ = .928有很高的相關性。圖5顯示了不同的方法在每個感知測試中是如何執行的。這表明2AFC泛化到另一個知覺測試,並給我們關於人類判斷的信號。
Can we train a metric on traditional and CNN-based distortions? 在圖4中,我們使用lin、scratch和tune配置顯示性能,分別以紫色、粉色和棕色顯示。在驗證傳統的和基於cnn的扭曲時(圖4(a)),我們看到了改進。允許網絡通過所有方式進行調優(棕色)比簡單地學習線性權值(紫色)或從頭開始訓練(粉色)獲得更高的性能。高容量網絡VGG的性能也優於低容量SqueezeNet和AlexNet架構。這些結果證實了網絡確實可以從感知判斷中學習。
Does training on traditional and CNN-based distortions transfer to real-world scenarios? 我們更感興趣的是如何將性能推廣到實際算法中,如圖4(b)所示。SqueezeNet、AlexNet和VGG架構的初始值分別為64.0%、65.0%和62.6%。學習線性分類器(紫色)可以提高所有網絡的性能。在3個網絡和4個實際算法任務中,12個任務中有11個得分得到了提高,這表明使用我們的數據對已有的表現進行“校准”激活是實現性能小幅提升的一種安全方法(分別為1.1%、0.3%和1.5%)。從頭訓練一個網絡(粉色)會使AlexNet的性能略低,而VGG的性能略高於線性校准。然而,這些仍然比低級度量要好。這表明,我們所表示的扭曲確實投射到我們判斷真實算法的測試任務上。
有趣的是,從一個預先訓練過的網絡開始,然后在整個過程中進行調優,會降低傳輸性能。這是一個有趣的負面結果,因為直接訓練一個低層次的感知任務並不一定像轉移一個在高級任務上訓練的表征那樣有效。
Where do deep metrics and low-level metrics disagree? 在圖11中,我們對一種深度方法BiGANs[13]和一種表示傳統感知方法SSIM[58]進行了定性比較。BiGAN覺得遠而SSIM覺得近的對通常都有一些模糊。對比SSIM,BiGAN傾向於感知更小扭曲的相關噪聲模式。
5. Conclusions
我們的結果表明,被訓練來解決具有挑戰性的視覺預測和建模任務的網絡,最終會學習到一個與感知判斷很相關的世界的表征。最近在表示學習的文獻中也出現了類似的情況:在自我監督和無監督目標上訓練的網絡,最終學習的表示在語義任務[12]中也是有效的。有趣的是,最近在神經科學上的發現也提出了同樣的觀點:在計算機視覺任務上訓練的表征最終也成為獼猴視覺皮層中神經活動的有效模型[61]。此外(粗略地說),計算機視覺任務的表現越強,作為大腦皮層活動模型的表現就越強。我們的論文也有類似的發現:特征集在分類檢測上越強,作為感知相似度判斷模型的作用就越強,如表4所示。
總之,這些結果表明,好的特征就是好的特征。擅長語義任務的特征也擅長自我監督和非監督任務,並為人類感知行為和獼猴神經活動提供了良好的模型。最后一點與視覺認知[4]的“理性分析”解釋一致,認為生物感知的特質是理性主體試圖解決自然任務的結果。進一步完善這一點的真實性是未來研究的一個重要問題。