AI-數據標注



    算力數據是影響深度學習的兩個關鍵因素。在算力滿足的情況下,為了達到更好的效果,我們就需要提供海量優質素材數據給神經網絡,以求訓練出來高精度的網絡模型。在平時的測試過程中,也發現基於深度學習的算法, 素材的數量素材的均衡度標注的質量對訓練出來的模型精度影響非常大。
    常見的算法模型訓練所需要的素材格式主要為:

  • 二維圖像文件
  • 對應二維圖像中人工標注出來的目標信息,包括目標坐標[(xmin,ymin)(xmax、ymax)]/大小、目標類型(class)

    模型訓練的過程就是將上述素材輸入到神經網絡,經過反復迭代優化,以求得到效果最好的通用模型。在實際應用模型的時候,會根據檢測到目標對象輸出坐標/大小、目標類型、置信度。用一種數據類型表示如下:

(xmin,ymin,xmax,ymax,class,score)
可設置一個門限值,通過與score進行比較,過濾掉部分結果

素材標注工具

    通過對深度學習的基礎知識學習,我們可以理解深度學習就是通過輸入海量標注素材,不斷調整模型參數去擬合,最終輸出效果較好的模型,再通過輸入非素材中的數據來預測結果,以求達較高的預測准確率和通用性。以下為目前常用的圖像素材標注工具labelImg,標注完成后會生成相應的xml文件,用以標識坐標和類型,如下圖所示:

  • 標注工具
    01數據標注工具.jpg
  • xml文件
    02標注生成的xml文件.jpg

標注可能存在的問題

    圖像標注時,需要人工標出目標的位置和大小,並給出或選擇目標類型。所以對人工標注是有一定要求的。常見的標注問題如下所示:

  • 標注框過大或過小
  • 標注框位置不正確
  • 標注類型錯誤
  • 存在漏標注情況
  • 存在過標注情況
  • 模糊的目標也進行標注
  • 標注分割錯誤問題
  • 標注框不完整,存在缺失

因此一個合格的標注應該具備以下因素:

  • 標注框大小和位置合適
  • 標注框能將目標對象圍住
  • 標注框的對象類型准確無誤
  • 一個標注框中僅包含一種目標對象類型

標注注意事項

標注框大小合適

    標注框大小合適意味着所畫的標注矩形框剛好將目標對象包圍住,對象與標注框間的間隙合適,不能過大也不能過濾。過大會傳遞給網絡不必要的信息,太小傳遞給網絡的信息會存在缺失。

03標注大小問題.jpg

標注框位置合適

    位置一般是標注框大小合適,但存在與目標對象存在偏移的情況,如下所示:

04標注框偏移.jpg

目標遮擋時處理

    在標注時,不能僅標注完整可見的目標對象,對於人眼可見能分辨的對象也要進行標注,為提高模型通用性,很多遮擋目標也是需要能被模型檢測識別出來的。針對這種情況需要根據具體業務規則進行處理,一般需要遵循的原則如下所示:

  • 對象的遮擋面積小於20%~40%,即人眼可視面積為60%~80%需要進行標注
  • 對於遮擋的對象,標注時只需要標注可見部分
  • 對於遮擋的對象,人眼可以識別出對象類型

05遮擋標注.jpg

標注不能遺漏目標對象

    雖然各個算法對小目標的檢測效果有所差異,但對於小目標的目標對象仍然需要進行標注。遵循的原則跟目標遮擋時的處理一樣,只要人眼可以進行分辨,仍然需要進行標注。

06標注小目標.jpg

標注不能存在過標注情況

    不同的業務,對於目標的識別也是不一樣的,如對於Logo侵權這種問題,如國際一些公開通用的Logo則不需要進行標注,如下所示:

07過標注情況.jpg

針對Logo侵權的目標對象,一般打印體字無需要進行標注,但對於藝術字或單獨設計的字體也是需要進行標注的。

對於非常模糊的目標對象的處理

    這種情況一般是被遮擋面積過大、距離太遠或圖像和視頻分辨率很低,導致人眼無法進行分辨,針對這種情況則無需進行標注。

08模糊對象不需要進行標注.jpg

對象分開標注問題

    這種情況需要根據業務場景進行區分處理。在平時測試,我所遵循的原則如下所示:

  • 背景為純色
  • 圖像中的對象可以被分割為一個獨立可識別的對象個體
    同時滿足以上兩個條件,則進行單獨標注,否則則當作一個整體進行標注。

09標注分割問題.jpg

標注框不完整

    這種情況一般為標注軟件Bug或人工標注出現越界,導致標注框看起來存在部分框缺失。如下所示:

10標注框缺失.jpg

如何提高素材標注質量

從素材的三大關鍵要素(素材數量、素材的均衡度、標注質量)來看,我們可以采用以下方式來保證素材質量

素材數量

    在收集數據時,需要盡可能多的從各個渠道多收集素材數據,如合法爬蟲、公開數據集等

素材的均衡度

    素材的均衡度通常是指素材的多樣性分布。如視頻里面,由於拍攝的角度不同,出來的素材角度也是不同,如前方、后方、左側、右側等。圖像也是取決於拍攝素材的擺放角度,例如拍攝一件衣服,如正前方,正后方、左側、右側,斜面拍攝,距離遠近等,只有在選擇的素材盡可能的多樣,訓練出來的模型也才有更好的通用性。

標注質量

    數據標注和檢查是非常重要的一個環節,需要注意以下幾個方面:

  • 1、不要單純追求速度而忽視質量

    雖然對於數據的標注,有時間和進度要求,但要結合實際情況找到平衡點,不要單純追求速度,導致標注質量下降,導致日后大量返工

  • 2、定期專人對標注素材進行審核

    指定專人定期對標注的素材進行審核,可以很大避免在標注過程出現的問題,如標注質量較差,每個人對標注的理解存在差異等。

參考文章:https://www.cnblogs.com/xiaozhi_5638/p/11288118.html

本文同步在微信訂閱號上發布,如各位小伙伴們喜歡我的文章,也可以關注我的微信訂閱號:woaitest,或掃描下面的二維碼添加關注:
MyQRCode.jpg


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM