【數據相關】如何進行數據標注(2)


現在網絡上關於深度學習算法的文章很多,但深度學習其實是數據驅動型。很多時候數據足夠好,能給算法開發提供很大的便利。

因此,本文主要講解數據標注。文章共兩個部分:(1)數據標注綜述(2)數據標注實踐要點

本文是第二部分:數據標注實踐要點。本文可能會幫助讀者更直觀的認識對圖片標注中的問題。

1、要點來源

本文的標注要點來源於圖像標注專家Adela Barriuso的標注筆記。她於2007年開始使用labelme系統地標注SUN數據庫,標注了 超過25萬個物體。筆記記錄了標注過程中曾遇到的困難和采用的解決方案,以便得到一致性高的注釋。

Adela Barriuso在西班牙的一家服裝店里進行數據標注,這就是傳說中的大隱隱於市嗎?哈哈。

2、標注筆記

下面整理出Adela Barriuso在數據標注中的心得。

  • 在標注圖像時,首先對圖像進行整體的評估,衡量標注難度。有些乍一看標注難度較大的圖像,實際上圖中的元素很少,很容易標記。
  • 標注時,通常由大到小進行標注。比如開放空間中先標注天空,封閉空間內先標注天花板,然后再繼續添加其他東西。

  • 標記的順序不重要,但標注時最好一行行進行,將一行內所有類型相同的對象全都標注上,降低標簽寫錯的可能。
  • 一般不標注鏡子里反射的物體,這很容易造成誤導。
  • 在圖像中有很多線條性物體時(如下圖中的扶手和欄桿),需要特別注意,有可能標注出與所需完全相反的內容(即孔內被標記為對象),標注線在同一個位置經過兩次是正常的,刻意避免可能會出現上述情況。

  • 標注圖像中出現打開的門窗等情況時,不僅僅要標注門窗,也應將門窗內的物體也標注上,這有助於增加深度感。
  • 標注時的標注線條要好看一些,盡量避免弄成一塊一塊的

  •  像下圖中的這種過於復雜的圖片,如果你對圖中的內容不夠熟悉,就干脆跳過去。

  •  如果一個物體被另一個物體遮擋,在給兩個物體做標注時給兩個物體貼上標簽,確保它們的邊緣重合。

  • 在進行標注時有時需要放大和縮小,放大有助於標注一些小細節,但放大有可能造成錯亂。有些東西的局部放大后變得像其他物體。因此在標注之后需縮放至原始大小進行審核。
  • 標注室內空間時,一般單獨標記不同方向的牆,即便它們是相互連接的。
  • 在下圖中,圖像的復雜性是由於牆壁和拱門形成的不同深度平面造成的,在標記時需要給拱門內的元素進行標記。首先從兩堵牆開始,然后給牆壁和容易分辨的大物體進行標注,最后再去標注小的一些細節。有時候遺漏是不可避免地

  • 有時候某些容器是透明的,比如透明的容器內裝着一些餅干,這時候是標注“容器”還是“餅干”呢?一般標注為容器,重點在於要保持標注原則的前后一致。
  • 有時候標注標簽並非自己的母語,當標注的目標物種類較多時,一定要建立一個標簽的對應關系,方便查找,如bed:床

Reference

Barriuso A, Torralba A. Notes on image annotation[J]. arXiv preprint arXiv:1210.3448, 2012.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM