NLP文本標注工具與平台(數據標注公司)


最近在做NLP相關項目,包括句法分析、情感分析等,有大量數據需要標注。我評估了幾個文本標注工具,也接觸了幾家數據標注公司和平台,總結如下,供各位參考。

文本標注平台(標注外包公司)

數據標注公司的工作比較多樣,文本數據標注是最基礎的,另外語音、圖片、視頻標注也都可以做。目前這個行業良莠不齊,有的平台技術實力強,有品牌背景,比如京東眾智、百度眾包,數據保密做得好。有的平台是專門做代理的,你的數據需求交給他,他轉手就分包給下一層。下面介紹幾個平台,也綜合了其他博主的一些意見,如下:

京東眾智

標注質量比較高,項目交付准時,數據隔離方案可以不出自己的服務器完成標注,比較重視客戶的數據安全。也提供私有化部署服務。

百度眾測

標注能力比較廣泛,百度進入標注行業比較久,積累了較多的眾包用戶。不過我個人不看好眾包模式,因為質量比較難把控。

figure-eight

國外知名的數據標注平台,國外好多大公司都與它有合作。需求方可以自行配置標注工具和相應的label,直接在平台上發任務,沒有客戶經理溝通…這可能對國內客戶不太友好。

文本標注工具(開源)

1. Prodigy

  Website: https://prodi.gy/docs/ 

  Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning

2. DeepDive (Mindtagger):前端比較簡單,用戶界面友好。 

  介紹:http://deepdive.stanford.edu/labeling 

  前端代碼:https://github.com/HazyResearch/mindbender 

3.  BRAT

  介紹:http://brat.nlplab.org/index.html 

  在線試用:http://weaver.nlplab.org/~brat/demo/latest/#/ 

  代碼:https://github.com/nlplab/brat

4. IEPY :工程比較完整,有用戶管理系統。前端略重,對用戶不是非常友好

  代碼:https://github.com/machinalis/iepy 

  說明:http://iepy.readthedocs.io/en/latest/index.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM