實戰案例丨ModelArts在數據標注、數據過濾上的應用技巧:自動分組


大量復雜、亂序的圖片依次標注效率極低,如果一次可以標注一大片的圖片將極大地提升標注效率。

自動分組識別並提取圖像特征,通過ModelArts先進的聚類算法可以將所有圖片分組:將特征相似的圖片歸為一類,將特征差別大的圖片群分離。

在花朵識別項目中,需對大量無標注的花朵圖片進行標注,依次亂序標注蒲公英、郁金香、向日葵等將耗費大量寶貴時間

分組標注場景

啟動自動分組,我們事先知道花朵數據集中存在5個類別,為他們分組6類(聚類算法不能保證一定將5類別完全區分出來,需更細化地分組,於是往往分組數需大於實際類別數):

過約3分鍾后,通過篩選條件,我們可以得到自動分組的結果,如第1類幾乎都是郁金香的圖片,第3類幾乎都是蒲公英的圖片。

第1類

第3類

於是選擇當前頁 -> 輸入蒲公英 ,即可直接對他們一次性進行標注。

當然並不是每個組都是完美的,如一個組中大多都是向日葵,但還夾雜着非洲菊 。此時選擇當前頁后,去掉相應非向日葵圖片左上角的勾即可:

數據過濾場景

現實中的真實圖像數據量少,往往無法滿足深度學習網絡訓練數據量的要求,於是開發者們一般選擇網絡爬取需要的圖片,但爬取下來的圖片風格迥異、噪聲雜多,想要從中提取需要的圖片工作量是巨大的。

ModelArts提供的自動分組算法除了在分組標注上功能強大,在數據過濾場景上也是奇技淫巧 。

在安全帽項目中,由於實際安全帽圖像過少,從谷歌爬取了大量安全帽相關圖像(約3000張):

但是這些並不全是我們想要的“安全帽”,我們需要工地為背景,且工人類型的安全帽。

於是在自動分組中我們對這些圖像細分為10個組(越大的分組數對數據集分組越細,能分離出更多噪聲圖像),以下為部分組的展示:

第0組

第1組

第4組

第9組

顯然類似第1組和第9組的圖片才是我們需要的結果,第1組和第4組瀏覽大致后可以全部刪除,選擇當前頁並刪除:

刪掉噪聲圖像后,只剩下約1600張,過濾了快50%的圖像:

當然如果還存在很多噪聲,我們繼續進行分組,對剩下的1640張圖再自動分組10個類

可以看到,依舊有許多與安全帽不相干的圖像如:

再一次瀏覽所有分組,對數據進行清洗,最終只剩下1008張圖像,過濾了約65%的噪聲圖像,極大地降低了標注的壓力。

 

點擊關注,第一時間了解華為雲新鮮技術~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM