AI-數據標注類型

本文轉載自查看原文 2019-11-06 23:20 447 AI

隨着數據的暴增和計算機硬件技術的發展，也催生了AI技術在各行各業的應用滲透。而想將AI技術應用到各行各業，數據是必需品。因為數據直接影響到AI最終訓練出來的模型好壞。AI建模沒有太大門檻，但數據才是真正的門檻。因此，目前業界流傳着一段話有多少人工智能，就有多少人工。前一篇講述了數據如何標注及其注意，今天來學習一下數據標注的類型有哪些？

誰來做數據標注

目前各個公司需要標注的數據，一般同下面幾大公司或人員承擔

公司自己招聘人員或實習生進行標注

這種方式最大的優勢是：可以隨時檢查標注的質量和進度，便於快速溝通和調整，數據可以做到保密不外泄;劣勢是成本較高

外包給數據標注公司

這種方式最大的優勢是：速度非常快，成本低廉，標注公司也具備一定的開發標注工具能力，可定制性化能力較強;但劣勢也明顯標注公司魚龍混雜，參差不齊，需要隨時檢查標注質量，返工成本較大。另外數據也無法做到保密不外泄

外包給私人團體

這種方式的優劣勢基本同標注公司。優勢是成本較低，因為可以大量招收人員，如農村閑置人員，兼職人員等。稍微培訓下即可投入標注。

誰來管理數據標注

針對數據分配給不同的人員，相應的角色也可以分為三種類型：

數據標注人員

主要負責數據的標注和匯總

數據檢查人員

主要負責數據標注的質量檢查，常采用抽檢方式檢查，可細分為部分抽檢（比例約20%~30%）或全部抽檢

數據管理人員

負責人員任務分配、進度跟進、標注培訓及對外/對內協調溝通等

數據標注類型

因AI技術應用到具體的實例場景，會有很大差異，因此標注的類型也有很多，詳細如下所示：

圖像標注-2D邊框標注

這種類型應該是最常見的標注方式，常用於檢測目標對象的相應區域，標注框位於目標對象的四周，如下圖所示：

01邊框標注.png

圖像標注-3D邊框標注

也稱立方體標注，相比2D標注而言，還可以展現目標對象的近似深度。如下所示：

05立方體標注.png

圖像標注-語義分割

根據檢測區域的不同，將圖像標注為不同的像素，如下所示：

02語義分割.png

圖像標注-多邊形標注

根據需求標注目標對象的形狀，常用於無法使用邊框標注的不規則的目標對象，需要在目標對象的各個關鍵點進行描點，無論最終為何形狀，均要能反應目標對象的輪廓形狀和所有邊緣，如下所示：

03多邊形標注.png

圖像標注-直線或曲線標注

根據需求標注目標對象對應的線條位置，線條可能是直線也可能是曲線，常用於分隔表明邊界的事物。常用於自動駕駛，如下所示：

04線條標注.png

圖像標注-點標注

這種標注一般用於人臉識別，人體姿態跟蹤（如POSE算法）等

06點標注.png

視頻標注-跟蹤標注

在視頻或連續的圖像中跟蹤標注的目標對象，形成與ID關聯的運動軌跡

文本標注-中英文語音轉寫與校對

英文語音轉中文文本或中文文本轉英文語音。

語音標注-客服語音標注

外呼機器人進行外呼記錄語音標注呼叫成功或失敗，從而訓練話術。

常用標注工具

常用標注工具如下所示：

labelImg

下載地址：https://github.com/tzutalin/labelImg
注意事項：使用labelImg時，路徑不能包含中文

精靈標注助手

下載地址：http://www.jinglingbiaozhu.com/

本文同步在微信訂閱號上發布，如各位小伙伴們喜歡我的文章，也可以關注我的微信訂閱號：woaitest，或掃描下面的二維碼添加關注：

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 AI-數據標注 AI-圖像基礎知識-01 游戲AI-行為樹理論及實現 AI-人工智能/機器學習 seetafaceJNI 人工智能AI-機器視覺CV-數據挖掘DM-機器學習ML-神經網絡-[資料集合貼] 數據標注-精靈標注百度AI-人臉識別對接(在線活體檢測和身份驗證) 【AI-人工智能-mmdetection】ModuleNotFoundError: No module named 'mmdet.version' C#實現百度AI-實時語音識別轉寫-附源碼 [AI開發]目標檢測之素材標注