上一篇文章,我們介紹了brat的安裝和配置,當成功安裝和配置好了brat,我們就可以進行文本標注了。
首先,在brat項目的data目錄下新建一個project目錄,然后在brat項目的主目錄下找到以下文件,復制到project目錄:
-
主目錄:/var/www/html/brat
-
project目錄:/var/www/html/brat/data/project
-
要復制的文件:
我們來看一下這幾個文件分別是做什么的。
- annotation.conf
這個是配置文件,內容如下:
[entities]
# Definition of entities.
# Format is a simple list with one type per line.
時間
地點
人名
組織名
公司名
產品名
- visual.conf
這也是配置文件,可以配置不同的類別用不同的顏色顯示,找到如下段落,更新內容:
[drawing]
時間 bgColor:yellow
地點 bgColor:blue, fgColor:white
人名 bgColor:deepskyblue
組織名 bgColor:green, fgColor:white
公司名 bgColor:purple, fgColor:white
產品名 bgColor:pink
- mayun.txt
這是我們要標注的原文件,里面的內容片段如下(這里已經根據句號進行過分句處理,是因為不希望每個訓練樣本太長,建議控制在500字符內):
1964年9月10日,馬雲出生在杭州。
幼年的馬雲在人們的眼中是典型的壞孩子:叛逆、倔強、愛打架、逞強、頑皮淘氣。
馬雲的父親雖然是典型的江南人,但脾氣卻很火暴,馬雲從小在父親拳腳下長大。
馬雲是看金庸的武俠小說長大的,行俠仗義、打抱不平的“俠義”情結在少年馬雲的內心深處早已生根、萌芽。
mayun.ann是一個空文件,使用brat對mayun.txt的標注結果,會記錄在ann文件中。
此時我們通過瀏覽器訪問brat項目界面,打開project目錄下的mayun.txt文件(記得要先登錄),看到的界面如下:
然后我們選擇目標實體,比如“馬雲”,進行實體類別標注,效果如下:
此時,你可以邀請其他人用他們的帳號登錄brat,也打開這個txt,和你一起標注。
標注之后,再看看ann文件內容,如下:
- T1,T2所在的列,表示標注的類型和序號,比如如果是標注的實體間的關系會用R表示,這里因為只討論命名實體,不涉及實體間的關系,所以只要知道這個T表示什么就可以了;
- 人名,公司名所在列表示標注詞匯的實體類別;
- 第三、四列是標注詞匯在整個txt中的起始和(結束索引+1)
- 最后一列是就是標注的詞匯列
標注完成后,我們就有了mayun.txt和mayun.ann兩個對應的文件。關於如何使用這兩個文件,將在下一篇《用深度學習做命名實體識別(四):模型訓練》中介紹。
ok,本篇就這么多內容啦~,感謝閱讀O(∩_∩)O,88~