最近在做NLP相關項目,包括句法分析、情感分析等,有大量數據需要標注。我評估了幾個文本標注工具,也接觸了幾家數據標注公司和平台,總結如下,供各位參考。
文本標注平台(標注外包公司)
數據標注公司的工作比較多樣,文本數據標注是最基礎的,另外語音、圖片、視頻標注也都可以做。目前這個行業良莠不齊,有的平台技術實力強,有品牌背景,比如京東眾智、百度眾包,數據保密做得好。有的平台是專門做代理的,你的數據需求交給他,他轉手就分包給下一層。下面介紹幾個平台,也綜合了其他博主的一些意見,如下:
京東眾智
標注質量比較高,項目交付准時,數據隔離方案可以不出自己的服務器完成標注,比較重視客戶的數據安全。也提供私有化部署服務。
百度眾測
標注能力比較廣泛,百度進入標注行業比較久,積累了較多的眾包用戶。不過我個人不看好眾包模式,因為質量比較難把控。
figure-eight
國外知名的數據標注平台,國外好多大公司都與它有合作。需求方可以自行配置標注工具和相應的label,直接在平台上發任務,沒有客戶經理溝通…這可能對國內客戶不太友好。
文本標注工具(開源)
1. Prodigy
Website: https://prodi.gy/docs/
Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning
2. DeepDive (Mindtagger):前端比較簡單,用戶界面友好。
介紹:http://deepdive.stanford.edu/labeling
前端代碼:https://github.com/HazyResearch/mindbender
3. BRAT
介紹:http://brat.nlplab.org/index.html
在線試用:http://weaver.nlplab.org/~brat/demo/latest/#/
代碼:https://github.com/nlplab/brat
4. IEPY :工程比較完整,有用戶管理系統。前端略重,對用戶不是非常友好
代碼:https://github.com/machinalis/iepy
說明:http://iepy.readthedocs.io/en/latest/index.html