分類干貨實踐 | 重新標注128萬張ImageNet圖片:多標簽,全面提升模型性能


自發布以來,ImageNet 數據集逐漸成為機器學習社區最流行的圖像分類基准,但 ImageNet 自身存在着標簽噪聲,以及單標簽標注屬性與多類別樣本之間的不匹配。所以在本文中,韓國 Naver AI 實驗室提出了一種新穎的重新標注策略以及一個基於額外源數據的強大圖像分類器,通過該策略訓練的 ResNet 等多種架構都實現了性能提升。

 

圖片

 

1.前言ImageNet 是機器學習社區最流行的圖像分類基准數據集,包含超過 1400 萬張標注圖像。該數據集由斯坦福教授李飛飛等人於 2006 年開始創建,后成為評估計算機視覺模型在下游視覺任務中能力的試金石。
然而 ImageNet 並不完美,其標簽存在大量噪聲。近期多項研究表明,該數據集中許多樣本包含多個類別,而 ImageNet 本身是一個單標簽基准數據集。一些研究者提出將 ImageNet 轉換為多標簽任務評估基准,但是可能是由於標注成本過高,他們並未修復訓練集
在近日發布的一篇論文中,來自韓國 NAVER AI LAB 的研究者認為,在應用了隨機剪裁的訓練設置下,單標簽標注和高效多標簽圖像之間的不匹配帶來了同等問題。在使用單標簽標注時,圖像隨機剪裁可能包含與真值完全不同的對象,為訓練帶來噪聲甚至不准確的監督信號。
為此,這些研究者決定使用多標簽對 ImageNet 訓練集進行重新標注:他們在額外的數據源上訓練了一個強大的圖像分類器,使用其生成多標簽,解決了標注成本問題;在最終池化層之前使用像素級多標簽預測,以充分利用額外的位置特定監督信號。

圖片

原始 ImageNet 標簽(左上)與本文 ReLabel 標注器的效果對比。
基於重新標注樣本的訓練可以全面提升模型性能。例如,使用該研究提出的局部多標簽后,ResNet-50 在 ImageNet 上的 top-1 分類准確率達到 78.9%,使用 CutMix 正則化后還可以進一步提升至 80.2%。實驗表明,使用局部多標簽訓練的模型在遷移至目標檢測和實例分割任務以及多種穩健性基准時,性能優於基線方法。
此外,研究者還開源了重新標注的 ImageNet 訓練集、預訓練權重和源代碼。

 

2.方法這項研究提出了一種重新標注(re-labelling)策略 ReLabel,以在 ImageNet 訓練集上獲得像素級真值標簽。標簽映射((label map))具有兩個特征:多類別標簽和局部標簽。研究者使用機器標注器(machine annotator)獲得標簽映射,該標注器是在額外源數據上訓練的 SOTA 圖像分類器。研究者介紹了如何獲得標簽映射,並提出了一個新穎的訓練框架 LabelPooling,以使用這類局部多標簽訓練圖像分類器。
重新標注 ImageNet
研究者從機器標注器中獲得密集真值標簽,從這類模型中獲得的預測可能接近於人類預測。由於訓練機器標注器需要訪問專有訓練數據並在 GPU 或 TPU 上訓練數百天,所以研究者采用開源訓練權重作為機器標注器。
機器標注器如下圖 4 所示:

圖片



研究者注意到,盡管機器標注器在 ImageNet 上使用單標簽監督(softmax 交叉熵損失)進行訓練,但它們仍然傾向於對多類別圖像進行多標簽預測。所以,如果數據集中存在大量的標簽噪聲,則利用單標簽交叉熵損失訓練的模型傾向於預測多標簽輸出。
此外,利用分類器獲取標簽還有一個好處:提取位置特定的標簽。研究者移除了分類器的全局平均池化層,並將接下來的線性層轉化為 1×1 的卷積層,從而將該分類器轉化為一個全卷積網絡。然后,模型的輸出成為 f(x) ∈ R^W×H×C。研究者將該輸出 f(x) 作為標簽映射標注 L ∈ R^W×H×C。
利用密集多標簽訓練分類器
在獲得上述密集多標簽 L ∈ R^W×H×C 之后,接下來需要考慮如何利用它們訓練分類器。對此,研究者提出了一種新穎的訓練方案 LabelPooling,它將局部真值考慮了進來。下圖 3 展示了 LabelPooling 和原始 ImageNet 訓練之間的區別:

圖片



在標准 ImageNet 訓練設置下,隨機剪裁的監督信號來自於每張圖像的單標簽真值。另一方面,LabelPooling 會加載預計算的標簽映射,並在標簽映射上執行與隨機剪裁坐標相對應的區域池化操作。研究者采用了 RoIAlign 區域池化方法。
此外,研究者在池化預測圖上執行全局平均池化和 softmax 操作,以獲得多標簽真值向量。最后,研究者使用了交叉熵損失。

圖片

ReLabel 的偽代碼。
3.實驗
ImageNet 分類
為了驗證 ReLabel 的效果,研究者使用不同的網絡架構和評估指標(包括近期提出的多標簽評估指標)執行 ImageNet 分類任務。他們在包含 128 萬訓練圖像和 5 萬驗證圖像的 ImageNet-1K 基准上評估 ReLabel 策略。對於所有模型,他們均使用標准數據增強技術,如隨機剪裁、翻轉、色彩抖動。
與其他標簽操縱方法的對比:研究者對比了 ReLabel 與之前那些直接調整 ImageNet 標簽的方法,使用的模型是 ResNet50。結果參見下表 3:

圖片


在不同網絡架構上的結果:研究者使用 ReLabel 訓練了多個不同架構(包括 ResNet-18、ResNet101、EfficientNet-{B0,B1,B2,B3}、ReXNet),表明 ReLabel 可用於具備不同訓練機制的多種網絡。下表 4 展示了實驗結果,從中可以看出,ReLabel 持續提升不同網絡架構的性能,例如將 EfficientNet-B3 的准確率從 81.7% 提升至 82.5%。

圖片


SOTA 性能:ReLabel 對實現最優性能的其他訓練技巧起到補充作用,例如將 CutMix 正則化與 ReLabel 結合起來。研究者在隨機剪裁圖像上執行 CutMix,然后根據 CutMix 算法將池化標簽進行混合。實驗結果參見下表 5:ReLabel + CutMix 在以 ResNet-50 和 ResNet-101 作為主干模型的情況下,均取得了 SOTA ImageNet top-1 准確率。

圖片


遷移學習
研究者還檢驗了 ReLabel 帶來的 ImageNet 性能改進能否遷移至不同的下游任務,展示了在五個細粒度分類任務、目標檢測與實例分割任務上的結果。
細粒度分類任務:研究者在五個細粒度分類任務(Food-101、Stanford Cars、DTD、FGVC Aircraft 和 Oxford Pets)上評估了使用 ReLabel 預訓練的 ResNet-50 的性能。實驗結果參見下表 8:

圖片


目標檢測與實例分割:研究者分別使用具備特征金字塔網絡的 Faster-RCNN 和 Mask-RCNN 作為目標檢測和實例分割任務的 base 模型。Faster-RCNN 和 Mask-RCNN 的主干網絡基於 ReLabel 預訓練的 ResNet-50 模型進行初始化,然后使用原始訓練策略在 COCO 數據集上進行微調。實驗結果參見下表 9:

圖片


多標簽分類
多標簽訓練常用隨機剪裁作為數據增強方式,在這種情況下,ReLabel 和 LabelPooling 可以提供額外的局部監督信號,幫助改善原始多標簽訓練集。研究者使用多標簽分類數據集 COCO 進行實驗,然后使用基於標簽映射的 LabelPooling 訓練多標簽分類器。
下表 10 展示了實驗結果:使用 ReLabel 和機器生成的標簽地圖后,ResNet-50 和 ResNet-101 的 mAP 分別增長了 3.7 pp 和 2.4 pp;使用 oracle 標簽地圖后,二者的 mAP 分別增長了 4.2 pp 和 4.3 pp。

圖片

© THE END 

 

我們開創“計算機視覺協會”知識星球一年有余,也得到很多同學的認可,我們定時會推送實踐型內容與大家分享,在星球里的同學可以隨時提問,隨時提需求,我們都會及時給予回復及給出對應的答復。

圖片

如果想加入我們“計算機視覺研究院”,請掃二維碼加入我們。我們會按照你的需求將你拉入對應的學習群!
計算機視覺研究院主要涉及深度學習領域,主要致力於人臉檢測、人臉識別,多目標檢測、目標跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新框架,我們這次改革不同點就是,我們要着重”研究“。之后我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手編程愛動腦思考的習慣!圖片計算機視


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM