我們是靠眼睛、耳朵來捕獲外界信息,然后將信息通過神經元傳遞給我們的大腦,最后我們的大腦會對獲取來的各種信息進行分析從而達到諸如判斷、識別等效果。
同樣,人工智能之所以稱呼他為人工智能,是因為它的核心:也就是神經網絡模型。它就是根據模擬人腦的神經網絡而誕生的。而圖像、語音這一類信息通過特征標注處理(也就是數據標注),變成計算機能夠識別的信息。同時通過大量特征數據的訓練,最終達到計算機能夠自主識別的目的。
那么目前AI市場上特征數據主要包括哪些呢?
像人類用眼睛和耳朵獲取圖像、語音數據一樣,計算機的特征數據現階段也分為兩大類:圖像數據和語音數據。
同時,根據AI產品迭代的不同周期、算法模型的匹配結果,每個大類又可以細分為眾多小類,在這里我們主要對目前市場上主流的需求類型進行一個分類說明。
一、 圖像類 這里圖像類就是指所有照片的統稱
圖像場景識別作為人工智能不可獲取的一部分已經在日常生活中被大批量應用,這里對圖像特征的具體處理手法做一個簡單介紹:
- 四邊形矩形拉框 這個也就是數據標注市場上統稱的2D拉框,它主要是用特定軟件對圖像中需要處理的元素(比如:人、車、動物等等),進行一個拉框處理,同時用一個或多個獨立的標簽來代表一個或多個不同的需要處理元素,同時在標簽的添加上可能會碰到多層次的添加(以人為標注元素為例,長短發、胖瘦、穿衣顏色等)從而實現粗線條的種類識別。
- 多邊形拉框 顧名思義就是將被標注元素的輪廓以多邊型的方式勾勒出來,不同的被標注元素有不同的輪廓,除了同樣需要添加單級或多級標簽以外,多邊型還有可能會涉及到物體遮擋的邏輯關系。從而實現細線條的種類識別。
- LandMark 標注行業統稱打點,對需要標注的元素(比如人臉、肢體)按照需求位置進行點位標注。從而實現特定部位關鍵點的識別
- 語義分割 通過對需要標注區域或元素的充色,來達到不同元素或區域之間的分割關系,從而可以清晰的通過不同顏色的區域,對元素進行區分。從而實現系統化的識別。
- 點雲拉框 在軟件生成的三維模型中,對被標注元素進行外輪廓的3D立體拉框,與2d拉框相同,也需要對生成立體框添加特定標簽。從而實現具有空間感的識別。
- VR打標 使用VR設備,在虛擬立體場景中,對需要標注的元素(各類物體)進行關鍵區域的打標簽。從而實現更精准的被遮擋物品外觀輪廓的感知。
二、 語音類 這里語音類就是指所有語音的統稱
語音場景在人工智能領域作為和圖片場景同樣重要的環節,也同樣被大批量的進行應用,這里對語音特征的處理手法大致介紹一下:
目前市場上主流的語音場景都是以區間為單元對區間內的內容進行轉述,區間里的元素就是被標注元素。像圖片場景里給被標注元素一個特定的標簽一樣,對區間里的被標注元素也需要提供一個特定的標簽,當然這個標簽可以是一個詞語,也可以是具體的一句話。從而實現對於不同語句類別的判斷和對不同語句內容的理解。
當然,各種處理手法在實際的數據標注中都會碰到各種各樣的問題。有簡單的,也有較為復雜的。這些問題無一例外的都會影響到我們標注員、審核員在工作中的效率,那么如何在實際操作中有效的提高標注效率呢?請持續關注我們的官網www.awkvector.com及Blog更新,我們會在接下來更新的文章中,給大家詳細解惑。
閱讀原文請進入:http://www.awkvector.com/20181208-1/