大量復雜、亂序的圖片依次標注效率極低,如果一次可以標注一大片的圖片將極大地提升標注效率。
自動分組識別並提取圖像特征,通過ModelArts先進的聚類算法可以將所有圖片分組:將特征相似的圖片歸為一類,將特征差別大的圖片群分離。
在花朵識別項目中,需對大量無標注的花朵圖片進行標注,依次亂序標注蒲公英、郁金香、向日葵等將耗費大量寶貴時間
分組標注場景
啟動自動分組,我們事先知道花朵數據集中存在5個類別,為他們分組6類(聚類算法不能保證一定將5類別完全區分出來,需更細化地分組,於是往往分組數需大於實際類別數):
過約3分鍾后,通過篩選條件,我們可以得到自動分組的結果,如第1類幾乎都是郁金香的圖片,第3類幾乎都是蒲公英的圖片。
第1類
第3類
於是選擇當前頁 -> 輸入蒲公英 ,即可直接對他們一次性進行標注。
當然並不是每個組都是完美的,如一個組中大多都是向日葵,但還夾雜着非洲菊 。此時選擇當前頁后,去掉相應非向日葵圖片左上角的勾即可:
數據過濾場景
現實中的真實圖像數據量少,往往無法滿足深度學習網絡訓練數據量的要求,於是開發者們一般選擇網絡爬取需要的圖片,但爬取下來的圖片風格迥異、噪聲雜多,想要從中提取需要的圖片工作量是巨大的。
ModelArts提供的自動分組算法除了在分組標注上功能強大,在數據過濾場景上也是奇技淫巧 。
在安全帽項目中,由於實際安全帽圖像過少,從谷歌爬取了大量安全帽相關圖像(約3000張):
但是這些並不全是我們想要的“安全帽”,我們需要工地為背景,且工人類型的安全帽。
於是在自動分組中我們對這些圖像細分為10個組(越大的分組數對數據集分組越細,能分離出更多噪聲圖像),以下為部分組的展示:
第0組
第1組
第4組
第9組
顯然類似第1組和第9組的圖片才是我們需要的結果,第1組和第4組瀏覽大致后可以全部刪除,選擇當前頁並刪除:
刪掉噪聲圖像后,只剩下約1600張,過濾了快50%的圖像:
當然如果還存在很多噪聲,我們繼續進行分組,對剩下的1640張圖再自動分組10個類
可以看到,依舊有許多與安全帽不相干的圖像如:
再一次瀏覽所有分組,對數據進行清洗,最終只剩下1008張圖像,過濾了約65%的噪聲圖像,極大地降低了標注的壓力。