用深度學習做命名實體識別(三):文本數據標注過程


上一篇文章,我們介紹了brat的安裝和配置,當成功安裝和配置好了brat,我們就可以進行文本標注了。

首先,在brat項目的data目錄下新建一個project目錄,然后在brat項目的主目錄下找到以下文件,復制到project目錄:

  • 主目錄:/var/www/html/brat

  • project目錄:/var/www/html/brat/data/project

  • 要復制的文件:
    670a9144f3747d92fcf542851d8a4f64.png

我們來看一下這幾個文件分別是做什么的。

  • annotation.conf
    這個是配置文件,內容如下:
[entities]
# Definition of entities.
# Format is a simple list with one type per line.
時間
地點
人名
組織名
公司名
產品名

 

  • visual.conf

這也是配置文件,可以配置不同的類別用不同的顏色顯示,找到如下段落,更新內容:

[drawing]
時間 bgColor:yellow
地點 bgColor:blue, fgColor:white
人名 bgColor:deepskyblue
組織名 bgColor:green, fgColor:white
公司名 bgColor:purple, fgColor:white
產品名 bgColor:pink

 

  • mayun.txt

這是我們要標注的原文件,里面的內容片段如下(這里已經根據句號進行過分句處理,是因為不希望每個訓練樣本太長,建議控制在500字符內):

1964年9月10日,馬雲出生在杭州。
幼年的馬雲在人們的眼中是典型的壞孩子:叛逆、倔強、愛打架、逞強、頑皮淘氣。
馬雲的父親雖然是典型的江南人,但脾氣卻很火暴,馬雲從小在父親拳腳下長大。
馬雲是看金庸的武俠小說長大的,行俠仗義、打抱不平的“俠義”情結在少年馬雲的內心深處早已生根、萌芽。

 

mayun.ann是一個空文件,使用brat對mayun.txt的標注結果,會記錄在ann文件中。

此時我們通過瀏覽器訪問brat項目界面,打開project目錄下的mayun.txt文件(記得要先登錄),看到的界面如下:
b2bd05f00704a32d3d80f7ec5de64a36.png

然后我們選擇目標實體,比如“馬雲”,進行實體類別標注,效果如下:
ea0ececd21081d6b97b3558a5d2c6ea8.png

此時,你可以邀請其他人用他們的帳號登錄brat,也打開這個txt,和你一起標注。
標注之后,再看看ann文件內容,如下:
2dc58df482a2a62efb150dd6b6e21ba0.png

  • T1,T2所在的列,表示標注的類型和序號,比如如果是標注的實體間的關系會用R表示,這里因為只討論命名實體,不涉及實體間的關系,所以只要知道這個T表示什么就可以了;
  • 人名,公司名所在列表示標注詞匯的實體類別;
  • 第三、四列是標注詞匯在整個txt中的起始和(結束索引+1)
  • 最后一列是就是標注的詞匯列

標注完成后,我們就有了mayun.txt和mayun.ann兩個對應的文件。關於如何使用這兩個文件,將在下一篇《用深度學習做命名實體識別(四):模型訓練》中介紹。

ok,本篇就這么多內容啦~,感謝閱讀O(∩_∩)O,88~

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM