現在網絡上關於深度學習算法的文章很多,但深度學習其實是數據驅動型。很多時候數據足夠好,能給算法開發提供很大的便利。
因此,本文主要講解數據標注。文章共兩個部分:(1)數據標注綜述(2)數據標注實踐要點
本文是第一部分:數據標注綜述
1、數據標注的作用
數據標注是大部分人工智能算法得以有效運行的關鍵環節。人工智能算法是數據驅動型算法,也就是說,如果想實現人工智能,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。
數據標注的過程是通過人工貼標的方式,為機器系統可供學習的樣本。數據標注是把需要機器識別和分辨的數據貼上標簽,然后讓計算機不斷地學習這些數據的特征,最終實現計算機能夠自主識別。
2、數據標注的質量及標注流程
數據的高質量體現在兩個方面:一個標注的數量多,二是標注的質量高。
圖像標注的質量標准:圖像標注的質量好壞取決於像素點的判定准確性。標注像素點越接近被標注物的邊緣像素,標注的質量就越高,標注的難度也越大。如果圖像標注要求的准確率為100%,標注像素點與被標注物的邊緣像素點的誤差應該在1個像素以內。
語音標注的質量標准:語音標注時,語音數據發音的時間軸與標注區域的音標需保持同步。標注於發音時間軸的誤差要控制在1個語音幀以內。若誤差大於1個語音幀,很容易標注到下一個發音,造成噪聲數據。
文本標注的質量標准:文本標注涉及到的任務較多,不同任務的質量標准不同。例如:分詞標注的質量標准是標注好的分詞與詞典的詞語一致,不存在歧義;情感標注的標注質量標准是對標注句子的情感分類級別正確。
多數投票算法(majority voting,MV)是常用的標注質量評估算法。MV 算法是由約翰遜提出的一種通用性強的質量控制算法。它將絕大多數用戶選擇的結果視為最終結果。其基本思想為:假設有\(m\)個圖像標注任務\((t_1,t_2,...t_m)\),每個任務\(t_i\)對應一個二元分類。為提高標注質量和標注可靠性,將需要標注的對象\(x_i\)分配給\(N\)個員工(一共\(M\)個員工,\(N≤M\))。每個工人的標注結果為\(y_i^j\in\left\{ 0,1 \right\}\),再根據\((y_i^1,...y_i^N)\)推斷出\(x_i\)的最終標簽,其計算公式為:
\(\hat{y_i}= \begin{cases}1,
& \dfrac{1}{N}\begin{matrix} \sum_{j=1}^N y_i^j \end{matrix}>\dfrac{1}{2}\\ random\ guess,
& \dfrac{1}{N}\begin{matrix} \sum_{j=1}^N y_i^j \end{matrix}=\dfrac{1}{2} \\ 0,
& \dfrac{1}{N}\begin{matrix} \sum_{j=1}^N y_i^j \end{matrix}<\dfrac{1}{2}
\end{cases}\)
圖像數據的標注流程為:
(1)數據清洗:排除數據存在缺失值、噪聲數據、重復數據等質量問題。
(2)數據標注:划分標注任務、制定標注規范。進行標注任務。
(3)標注檢驗:由標注審核員或機器質檢機制,審核標注質量
3、常用的標注工具
點擊標注工具的名稱,即可獲取下載地址。每個鏈接我都試了,如果連接不上可能是需要掛梯子。
名稱 | 簡介 | 運行平台 | 標注形式 | 標注格式 |
LabelImg | 著名的圖像標注工具 | Windows,Linux,Mac |
矩形框 | VOC和YOLO格式 |
LabelMe | 著名的圖形界面標注工具,能夠標注圖像和視頻 |
Windows,Linux,Mac |
多邊形、矩形、圓形、多段線、線段、點 |
VOC 和 COCO 格式 |
圖像標注 | Mac | 多邊形、矩形、多段線線段、點 |
YOLO、KITTI、 COCO1、CSV | |
VOTT | 基於 Web 方式本地部署的標注工具,能夠標注圖像和視頻 |
Windows,Linux,Mac |
多邊形、矩形、點 | TFRecord、CSV、VoTT |
LabelBox | 適用於大型項目的標注工具,基於Web,能夠標注圖像、視頻和文本 |
- | 多邊形、矩形、線、 點、嵌套分類 |
JSON 格式 |
VIA | VGG的圖像標注工具,也支持視頻和音頻標注 |
- | 矩形、圓、橢圓、多邊形、點和線 |
JSON 格式 |
COCO UI | 用於標注 COCO 數據集的工具,基於 Web 方式 |
- | 矩形、多邊形、 點和線 |
COCO格式 |
Vatic | Vatic 是一個帶有目標跟蹤的視頻標注工具,適合目標檢測任務 |
Linux | - | VOC 格式 |
BRAT | 基於 Web 的文本標注工具,主要用於對文本的結構化標注 |
Linux | - | ANN 格式 |
DeepDive | 處理非結構化文本的標注工具 | Linux | - | NLP 格式 |
Praat | 語音標注工具 | Windows,Unix,Linux,Mac |
- | JSON 格式 |
精靈標注助手 | 多功能標注工具 | Windows,Linux,Mac |
矩形、多邊形和曲線 | XML 格式 |
Reference
[1]蔡莉,王淑婷,劉俊暉,朱揚勇.數據標注研究綜述[J].軟件學報,2020,31(02):302-320.