數據標注就是使用自動化工具通過分類、畫框、注釋等等對收集來的數據進行標記以形成可供計算機識別分析的優質數據的過程。
數據標注的對象主要分為文本、圖片、音頻、視頻四個種類:
文本標注主要包括情感分析、知識庫、關鍵詞提取、文字翻譯、搜索引擎優化等。就比如,識別一句話蘊含的情感,翻譯等等;
圖片標注主要包括圖像分割 、物體檢測 、圖像語義理解、圖像生成 、圖片加注等服務;
音頻標注主要包括對全球主要語言和語料、包括方言、特殊情景語音進行識別標注,語音識別等等;
視頻標注主要包括對視頻中出現的物體、文字、語音、情景等進行標注。
由於數據標注屬於AI公司中較為費時、費力的工作,因此大公司一般都將數據標注的工作外包給專業的數據服務平台。讓專業的公司去做專業的事情,不僅提升了效率,而且實現了低成本高精度的標注。
幾種分類名稱:
1)Classification標注,是對圖片進行分類,比如是給定的圖片是狗的圖片還是貓的圖片;
2)Detection標注,是對圖片中出現的物體檢測位置,比如圖片中出現了貓,常見的Detection標注是把貓用一個矩形框圈起來。
3)Segmentation標注,是對圖片進行切割,比如圖片中出現了貓,常見的Segmentation標注是把貓的輪廓用線畫出來。
4)Caption標注,簡單說就是看圖說話,就是給定一個圖片,用一句話描述圖片中發生的事情。
5)Attribute標注,是標注圖片中出現物體的屬性,比如圖片中出現了貓,常見的Attribute標注就是標注貓的形狀、顏色、品種等等。
鏈接:https://www.zhihu.com/question/31210148/answer/181742167
特征提取
https://blog.csdn.net/u013719780/article/details/51743867
