伴隨着人工智能行業的強勢崛起,數據標注這個在人工智能行業鏈條中有着舉足輕重地位的環節,也漸漸的成為了一個新興的服務型行業......
接下來,我們說說數據標注。我們首先從字面來看,“數據標注”從字面意思不難理解,其實就是對數據利用不同方式進行處理。再者,既然方式已經確定,那么如何讓這種處理方式有一個固定的載體,就是我們今天要談的重點內容。
顯然,數據標注工具就是處理數據標注需求的最好載體。那么,我們現在就展開來談談,目前市面上都有哪些數據標注工具,同時這些數據標注工具各自的優缺點又體現在什么地方。
1. Labelme
開源的圖像標記工具,有廣泛的使用人員和知曉率,軟件自身也在不斷迭代,開發者也在不斷的優化使用功能。
優點
♦ 開源工具,使用者可以根據自身需求對其功能進行添加和修改,軟件基礎功能穩定。
♦ 在以點坐標的方式定位被標注元素輪廓的同時,還可以以像素點的方式定位被標注元素輪廓。
♦ 操作簡單,可選用的工具包括點、2d邊界框、多邊形、圓、折線。
缺點
♦ 需要每台使用電腦進行安裝部署,如臨時操作電腦沒有該軟件,則項目無法進行。
♦ 需要人工分發和匯總原始及標注完成數據集,這樣會造成較高的運營成本(分揀圖片消耗的人力、時間及每台標注計算機的硬盤消耗)。
♦ 無法進行協同辦公,在同時存在質檢和標注兩種人物角色時,質檢人員無法做到即時查看標注人員的標注進度及標注質量,這會導致成批次的數據完成后一旦出現問題,大面積修改的情況。
♦ 只能夠輸出Json格式文件,對於需求其他輸出格式的使用人員會消耗更多解析時間。
♦ 無法對標注結果(2D邊界框、多邊形、點、折線)進行計數,無法分類統計標注結果(圖中有多少個人、車、其他元素)。無法對標注結果進行計數統計的直接結果就是無法衡量一個標注人員的效率。
2. LabelImg
開源圖像標記工具,有廣泛的使用人員和知曉率,同時自身也在不斷迭代。
優點
♦ 開源工具,使用者可以根據自身需求對其功能進行添加和修改,軟件基礎功能穩定。
♦ 操作簡單,界面簡潔。
缺點
♦ 需要每台使用電腦進行安裝部署,如臨時操作電腦沒有該軟件,則項目無法進行。
♦ 需要人工分發和匯總原始及標注完成數據集,這樣會造成較高的運營成本(分發、匯總圖片消耗的人力、時間及每台標注計算機的硬盤消耗)。
♦ 無法進行協同辦公,在同時存在質檢和標注兩種人物角色時,質檢人員無法做到即時查看標注人員的標注進度及標注質量,這會導致成批次的數據完成后一旦出現問題,大面積修改的情況。
♦ 只能夠輸出voc(xml)格式文件,對於需求其他輸出格式的使用人員會消耗更多解析時間。
♦ 無法對標注結果(2D邊界框、多邊形、點、折線)進行計數統計,無法分類統計標注結果(圖中有多少個人、車、其他元素)。無法對標注結果進行計數統計的直接結果就是無法衡量一個標注人員的效率。
3. VIA
免費標注軟件,有廣泛的使用人員和知曉率,同時自身也在不斷迭代。
優點
♦ 網頁端去打開不需要部署電腦,打開方式比較靈活。
♦ 可以增減2級標簽及屬性,對於有相關需求的使用者很友好。
♦ 可以實現純文本輸出格式CSV。
缺點
♦ 需要人工分發和匯總原始及標注完成數據集,這樣會造成較高的運營成本(分發、匯總圖片消耗的人力、時間及每台標注計算機的硬盤消耗)。
♦ 無法進行協同辦公,在同時存在質檢和標注兩種人物角色時,質檢人員無法做到即時查看標注人員的標注進度及標注質量,這會導致成批次的數據完成后一旦出現問題,大面積修改的情況。
♦ 只能夠輸出Json格式文件,對於需求其他輸出格式的使用人員會消耗更多解析時間。
♦ 無法對標注結果(2D邊界框、多邊形、點、折線)進行計數統計,無法分類統計標注結果(圖中有多少個人、車、其他元素)。無法對標注結果進行計數統計的直接結果就是無法衡量一個標注人員的效率。
4. 精靈標注
國內免費標注軟件,有廣泛的使用人員和知曉率,同時自身也在不斷迭代。
優點
♦ 全部中文操作界面,上手簡單。
♦ 支持多種格式輸出。
♦ 可以實現二級標簽。
缺點
♦ 需要每台使用電腦進行安裝部署,如臨時操作電腦沒有該軟件,則項目無法進行。
♦ 需要人工分發和匯總原始及標注完成數據集,這樣會造成較高的運營成本(分發、匯總圖片消耗的人力、時間及每台標注計算機的硬盤消耗)。
♦ 無法進行協同辦公,在同時存在質檢和標注兩種人物角色時,質檢人員無法做到即時查看標注人員的標注進度及標注質量,這會導致成批次的數據完成后一旦出現問題,大面積修改的情況。
♦ 無法對標注結果(2D邊界框、多邊形、點、折線)進行計數統計,無法分類統計標注結果(圖中有多少個人、車、其他元素)。無法對標注結果進行計數統計的直接結果就是無法衡量一個標注人員的效率
通過對上述4種標注工具優缺點的介紹,下面我們着重介紹一下標注軟件LabelHub。
5. LabelHub
嚴格說LabelHub不單是一個標注軟件,它更像是一整套標注系統。之所以稱之LabelHub為標注軟件,因為它又兼有標注軟件操作界面簡潔,易懂的特點。
優點
♦ LabelHub是一個免費的操作軟件,與大部分需要花費高昂部署費用的軟件有着鮮明的優勢。
♦ 全中文操作界面,流程化創建項目,方便操作。
♦ 所有標注員賬號由系統統一分配數據,直接解決了分發和匯總數據的痛點。
♦ 可以協同操作,標注員在標注的同時,質檢及其他有相關權限的賬號可以實時看到標注結果,方便及時糾錯。
♦ 可以按小時/天/周/月等時間單位統計標注人員賬號的數據完成情況,標注人員的標注效率完全可視化,在降費增效方面作用突出。
♦ 隨時隨地可操作性強, 只要有網絡和賬號,隨時隨地都可以進行登錄操作,不受環境的制約和影響。
缺點
♦ 因為上線的時間較短,軟件的使用人數較少。受眾人數的多少會遇到改變習慣方面的困難。(比如使用習慣上的改變,現有流程的顛覆,重跑一個新的流程也面臨需要花費時間)。
以上就是目前數據標注行業中比較流行的各類開放數據標注軟件。當然,這些遠遠不能覆蓋所有的相關軟件。這里只挑選一些具有代表性,穩定性高的軟件作為介紹。如果后續還有更出色的相關軟件,我們也會持續關注。
這一期只說關於計算機視覺方面的相關標注軟件,后續我們會和大家分享關於語音轉寫、自然語言處理等方面的相關軟件。希望大家多多關注,如果有任何問題,也可以關注www.awkvector.com官網更新,或者進入“今日頭條”搜索“覺醒向量”在文章下方留言。
©著作權歸作者所有:來自覺醒向量數據標注的原創作品,如需轉載,請注明出處,否則將追究法律責任。