小米造最強超分辨率算法 | Fast, Accurate and Lightweight Super-Resolution with Neural Architecture Search


本篇是基於 NAS 的圖像超分辨率的文章,知名學術性自媒體 Paperweekly 在該文公布后迅速跟進,發表分析稱「屬於目前很火的 AutoML / Neural Architecture Search,論文基於彈性搜索(宏觀+微觀)在超分辨率問題上取得了非常好的結果。這種架構搜索在相當的 FLOPS 下生成了多個模型,結果完勝 ECCV 2018 明星模型 CARNM,這應該是截止至 2018 年可比 FLOPS 約束下的 SOTA(涵蓋 ICCV 2017 和 CVPR 2018)。

而達到這樣的效果,論文基於一台 V100 用了不到 3 天時間。需要指出的是,該項技術具有一定的普適性,理論上可以應用於任何監督學習,值得我們關注和學習。」

作為計算機視覺中的經典任務,單幀超分辨率(SISR)旨在基於低分辨率圖像重構出對應的高分辨率圖像。目前大多數 SISR 算法都借助深度學習的非線性擬合能力,並大幅超越了傳統視覺算法。直觀而言,圖像超分辨率是一種提煉並擴展圖像信息的方法,模型需要根據圖像的整體語義信息重構出欠缺的細節。因此與一般的圖像銳化或清晰度調整不同,圖像超分辨率任務有着更高的要求。

目前已有的超分辨率模型大多數都是人工設計的,它們很難進行壓縮或者微調。與此同時,神經架構搜索已經在分類任務中取得了極好的效果。根據這一趨勢,Chu et al., 2019 提出了使用強化遺傳搜索方法處理 SISR 任務,該方法優於 VDSR [Kim et al., 2016a] 等流行網絡。

在該論文中,作者基於彈性神經架構搜索探討 SISR 任務,提出的方法已經達到與 CARN 和 CARN-M 相當的效果。作者表示他們最主要的貢獻可以總結為以下四點:

  • 發布了幾種快速、准確和輕量級的超分辨率架構和模型,它們與最近的當前最優方法效果相當;
  • 通過在 cell 粒度上結合宏觀和微觀空間來提升彈性搜索能力;
  • 將超分辨率建模為受限多目標優化問題,並應用混合型控制器來平衡探索(exploration)和利用(exploitation)。
  • 生成高質量模型,其可在單次運行中滿足給定約束條件下的各種要求。

此外,研究者還開放了預訓練的模型和評估代碼,他們在 GitHub 中提供了 FALSR A、B 和 C 三個預訓練模型,同時也提供了一些示例數據集,包括 B100、Set14 和 Urban100 等。發布的模型基於 TensorFlow。如果想要使用預訓練模型看看效果,直接復制 GitHub 項目,並運行以下命令行就行了:

python calculate.py --pb_path ./pretrained_model/FALSR-A.pb --save_path ./result/

流程架構

與大部分 NAS 方法類似,本研究提出的方法包含三個主要模塊:彈性搜索空間、混合模型生成器和基於不完全訓練的模型評估器。

與 [Lu et al., 2018; Chu et al., 2019] 類似,本研究也使用 NSGA-II [Deb et al., 2002] 來解決多目標問題。但該研究的特點在於,它會使用混合型控制器和基於 cell 的彈性搜索空間(可支持宏觀和微觀搜索)。

該研究在處理超分辨率任務時考慮了三個目標:

  • 反映模型性能的量化度量指標(PSNR)
  • 評估模型計算成本的量化度量指標(mult-adds)
  • 參數量

此外,該研究還考慮了以下約束:

  • 滿足人類視覺感知的最小 PSNR
  • 資源限制下的最大 mult-adds

彈性搜索空間

本研究的搜索空間旨在執行微觀和宏觀搜索。微觀搜索用於在每個 cell 的搜索空間的中選擇有潛力的單元,可看作是特征提取器。而宏觀搜索旨在搜索不同 cell 的跳接,其作用是結合選定層級的特征。此外,研究者使用 cell 作為最小搜索元素有兩個原因:設計靈活性、通用的表征能力。

通常,超分辨率任務可分為三個子步驟:特征提取、非線性映射和重建。由於大部分深度學習方法主要關注第二部分,因此該研究將其搜索空間設計用於描述非線性映射,其他部分保持不變。圖 1 展示了該研究中提出的超分辨率任務主要基礎結構。一個完整的模型包括預定義的特征提取器(具備 32 個 3 × 3 卷積核的 2D 卷積)、來自微觀搜索空間的 n 個單元塊和來自宏觀搜索空間的跳接、上采樣和重建。

圖 1:本研究采用的基礎超分辨率神經架構(cell 間的箭頭表示跳接)圖 2:控制器結構

與當前最優超分辨率方法的對比

該模型訓練完成后,研究者在常用超分辨率任務測試數據集上將其與當前最優方法進行了對比(見表 1 和圖 5)。公平起見,本研究僅考慮 FLOPS 相當的模型。因此,太深和太大的模型(如 RDN [Zhang et al., 2018b]、RCAN [Zhang et al., 2018a])均不包括在內。研究者按照慣例選擇 PSNR 和 SSIM 作為度量標准。對比在兩倍超分辨率任務上進行,所有 Mult-Adds 均基於 480 × 480 的輸入衡量。

表 1:在 ×2 超分辨率任務上對比本文提出的方法和當前最優方法圖 5:FALSR-A、FALSR-B、FALSR-C(鮭紅色)vs. 其他模型(藍色)

在 FLOPS 相當的模型對比中,本研究提出的 FALSR-A 模型優於 CARN [Ahn et al., 2018](圖 3)。此外,FALSR-A 模型還在四個數據集和三個目標上超過 DRCN [Kim et al., 2016b] 和 MoreMNAS-A [Chu et al., 2019]。它的 PSNR 和 SSIM 值高於 VDSR [Kim et al., 2016a]、DRRN [Tai et al., 2017a] 等,且 FLOPS 低於后者。

研究者還創建了一個更輕量級的版本——FALSR-B(圖 4),它超越了 CARN-M,這意味着更少 FLOPS 與參數量的情況下,FALSR-B 的得分堪比甚至超越 CARN-M。此外,它的架構更吸引人,連接之間的復雜度介於稀疏和密集連接(dense connection)之間。這表示密集連接不總是信息傳輸的最優方法。來自更低層的無用特征可能會給高網絡層重建超分辨率結果造成麻煩。

論文:Fast, Accurate and Lightweight Super-Resolution with Neural Architecture Search

論文鏈接:

摘要:深度卷積神經網絡在超分辨率領域取得了驚人的結果。大量研究聚焦於使用更深的網絡改進峰值信噪比(PSNR),這在資源有限時非常不友好。因此對圖像重建能力和模型簡潔性之間的權衡非常重要。近來的研究努力以手動方式最大化二者之間的平衡,但我們的方法能夠通過神經架構搜索自動達到同樣的目標。具體來說,我們使用多目標方法處理超分辨率問題。此外,基於結合了進化計算和強化學習的混合控制器,我們提出了支持微觀搜索和宏觀搜索的彈性搜索策略。定量實驗表明:在 FLOPS 相當的情況下,我們的生成模型優於大部分 SOTA 方法。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM