【數據相關】如何進行數據標注(1)


現在網絡上關於深度學習算法的文章很多,但深度學習其實是數據驅動型。很多時候數據足夠好,能給算法開發提供很大的便利。

因此,本文主要講解數據標注。文章共兩個部分:(1)數據標注綜述(2)數據標注實踐要點

本文是第一部分:數據標注綜述

1、數據標注的作用

數據標注是大部分人工智能算法得以有效運行的關鍵環節。人工智能算法是數據驅動型算法,也就是說,如果想實現人工智能,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。

數據標注的過程是通過人工貼標的方式,為機器系統可供學習的樣本。數據標注是把需要機器識別和分辨的數據貼上標簽,然后讓計算機不斷地學習這些數據的特征,最終實現計算機能夠自主識別。

2、數據標注的質量及標注流程

數據的高質量體現在兩個方面:一個標注的數量多,二是標注的質量高。

圖像標注的質量標准:圖像標注的質量好壞取決於像素點的判定准確性。標注像素點越接近被標注物的邊緣像素,標注的質量就越高,標注的難度也越大。如果圖像標注要求的准確率為100%,標注像素點與被標注物的邊緣像素點的誤差應該在1個像素以內。

語音標注的質量標准:語音標注時,語音數據發音的時間軸與標注區域的音標需保持同步。標注於發音時間軸的誤差要控制在1個語音幀以內。若誤差大於1個語音幀,很容易標注到下一個發音,造成噪聲數據。

文本標注的質量標准:文本標注涉及到的任務較多,不同任務的質量標准不同。例如:分詞標注的質量標准是標注好的分詞與詞典的詞語一致,不存在歧義;情感標注的標注質量標准是對標注句子的情感分類級別正確。

多數投票算法(majority voting,MV)是常用的標注質量評估算法。MV 算法是由約翰遜提出的一種通用性強的質量控制算法。它將絕大多數用戶選擇的結果視為最終結果。其基本思想為:假設有\(m\)個圖像標注任務\((t_1,t_2,...t_m)\),每個任務\(t_i\)對應一個二元分類。為提高標注質量和標注可靠性,將需要標注的對象\(x_i\)分配給\(N\)個員工(一共\(M\)個員工,\(N≤M\))。每個工人的標注結果為\(y_i^j\in\left\{ 0,1 \right\}\),再根據\((y_i^1,...y_i^N)\)推斷出\(x_i\)的最終標簽,其計算公式為:

\(\hat{y_i}= \begin{cases}1,
& \dfrac{1}{N}\begin{matrix} \sum_{j=1}^N y_i^j \end{matrix}>\dfrac{1}{2}\\ random\ guess,
& \dfrac{1}{N}\begin{matrix} \sum_{j=1}^N y_i^j \end{matrix}=\dfrac{1}{2} \\ 0,
& \dfrac{1}{N}\begin{matrix} \sum_{j=1}^N y_i^j \end{matrix}<\dfrac{1}{2} 
\end{cases}\)

圖像數據的標注流程為:

(1)數據清洗:排除數據存在缺失值、噪聲數據、重復數據等質量問題。

(2)數據標注:划分標注任務、制定標注規范。進行標注任務。

(3)標注檢驗:由標注審核員或機器質檢機制,審核標注質量

3、常用的標注工具

點擊標注工具的名稱,即可獲取下載地址。每個鏈接我都試了,如果連接不上可能是需要掛梯子。

名稱 簡介 運行平台 標注形式 標注格式
LabelImg 著名的圖像標注工具 

Windows,Linux,Mac

矩形框 VOC和YOLO格式
LabelMe

著名的圖形界面標注工具,能夠標注圖像和視頻 

Windows,Linux,Mac

多邊形、矩形、圓形、多段線、線段、點

VOC 和 COCO 格式

RectLabel

圖像標注 Mac

多邊形、矩形、多段線線段、點 

YOLO、KITTI、 COCO1、CSV 
VOTT

基於 Web 方式本地部署的標注工具,能夠標注圖像和視頻

Windows,Linux,Mac

多邊形、矩形、點

TFRecord、CSV、VoTT 

LabelBox

適用於大型項目的標注工具,基於Web,能夠標注圖像、視頻和文本

-

多邊形、矩形、線、 點、嵌套分類

JSON 格式 
VIA

VGG的圖像標注工具,也支持視頻和音頻標注

-

矩形、圓、橢圓、多邊形、點和線

JSON 格式 
COCO UI

用於標注 COCO 數據集的工具,基於 Web 方式

-

矩形、多邊形、 點和線

COCO格式
Vatic

Vatic 是一個帶有目標跟蹤的視頻標注工具,適合目標檢測任務

Linux  - VOC 格式 
BRAT

基於 Web 的文本標注工具,主要用於對文本的結構化標注

Linux  - ANN 格式
DeepDive 處理非結構化文本的標注工具  Linux  - NLP 格式
Praat 語音標注工具 

Windows,Unix,Linux,Mac

- JSON 格式
精靈標注助手 多功能標注工具 

Windows,Linux,Mac

矩形、多邊形和曲線  XML 格式

 

Reference

[1]蔡莉,王淑婷,劉俊暉,朱揚勇.數據標注研究綜述[J].軟件學報,2020,31(02):302-320.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM