實戰案例丨ModelArts在數據標注、數據過濾上的應用技巧：自動分組

本文轉載自查看原文 2020-07-25 11:37 542 華為雲新鮮技術分享/ 自動分組/ 數據過濾/ ModelArts/ 標注/ 數據庫

大量復雜、亂序的圖片依次標注效率極低，如果一次可以標注一大片的圖片將極大地提升標注效率。

自動分組識別並提取圖像特征，通過ModelArts先進的聚類算法可以將所有圖片分組：將特征相似的圖片歸為一類，將特征差別大的圖片群分離。

在花朵識別項目中，需對大量無標注的花朵圖片進行標注，依次亂序標注蒲公英、郁金香、向日葵等將耗費大量寶貴時間

分組標注場景

啟動自動分組，我們事先知道花朵數據集中存在5個類別，為他們分組6類（聚類算法不能保證一定將5類別完全區分出來，需更細化地分組，於是往往分組數需大於實際類別數）：

過約3分鍾后，通過篩選條件，我們可以得到自動分組的結果，如第1類幾乎都是郁金香的圖片，第3類幾乎都是蒲公英的圖片。

第1類

第3類

於是選擇當前頁 -> 輸入蒲公英，即可直接對他們一次性進行標注。

當然並不是每個組都是完美的，如一個組中大多都是向日葵，但還夾雜着非洲菊。此時選擇當前頁后，去掉相應非向日葵圖片左上角的勾即可：

現實中的真實圖像數據量少，往往無法滿足深度學習網絡訓練數據量的要求，於是開發者們一般選擇網絡爬取需要的圖片，但爬取下來的圖片風格迥異、噪聲雜多，想要從中提取需要的圖片工作量是巨大的。

ModelArts提供的自動分組算法除了在分組標注上功能強大，在數據過濾場景上也是奇技淫巧。

在安全帽項目中，由於實際安全帽圖像過少，從谷歌爬取了大量安全帽相關圖像（約3000張）：

但是這些並不全是我們想要的“安全帽”，我們需要工地為背景，且工人類型的安全帽。

於是在自動分組中我們對這些圖像細分為10個組（越大的分組數對數據集分組越細，能分離出更多噪聲圖像），以下為部分組的展示：

第0組

第1組

第4組

第9組

顯然類似第1組和第9組的圖片才是我們需要的結果，第1組和第4組瀏覽大致后可以全部刪除，選擇當前頁並刪除：

刪掉噪聲圖像后，只剩下約1600張，過濾了快50%的圖像：

當然如果還存在很多噪聲，我們繼續進行分組，對剩下的1640張圖再自動分組10個類

可以看到，依舊有許多與安全帽不相干的圖像如：

再一次瀏覽所有分組，對數據進行清洗，最終只剩下1008張圖像，過濾了約65%的噪聲圖像，極大地降低了標注的壓力。

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據動態過濾技巧在 Vue 項目中的實戰機器學習實戰筆記-利用K均值聚類算法對未標注數據分組實踐案例丨基於 Raft 協議的分布式數據庫系統應用如何使用modelarts訓練海量數據 .NET Attribute在數據校驗上的應用 DataX在數據遷移中的應用數據標注-精靈標注標注案例分享：自動駕駛3D激光點雲物體檢測丨曼孚科技那些可以在數據庫里做的事：分頁與過濾 Doccano數據標注工具 - 自動標注（Auto-Labeling）功能