1.NER簡介
(1)單句子標注任務,又叫命名實體識別(Named Entity Recognition),或者“專名識別”,簡稱NER,是一個序列標注任務。
(2)NER是指識別文本中具有特定意義的實體,包括三大類(實體類,時間類,數字類),七小類(人名P/PER(person),地名A/LOC(address,local),機構名O/ORG(organization),時間TIME,日期,貨幣,百分比)。
(3)通常包括兩部分:實體邊界識別;確定實體類別。
(4)常見的NER數據集有CoNLL-2003 NER。
(5)NER的輸入數據是什么?【查】
參考:
https://blog.csdn.net/libaominshouzhang/article/details/100100547
https://www.pianshen.com/article/874512843/
(6)輸出數據是NER數據文件。
(7)NER的數據格式:NER數據文件每一行由一個字和對應的標注組成,常用BIO和BIESO兩種標注,句子之間用一個空行隔開。
2.純中文標注
(1)IO
命名實體內部 Inner,命名實體外部(不是命名實體)Outer。
(2)BIO(常用)
命名實體的開始Begin,命名實體內部Inner,命名實體外部(不是命名實體)Outer。
(3)BIESO(常用)
命名實體的開始Begin,命名實體內部Inner,命名實體外部(不是命名實體)Outer,命名實體結尾End,單字的詞/獨立命名實體Single。
位置實體的開頭(B_LOC),位置實體的中間(I_LOC)。
(4)BMES
命名實體的開始Begin,命名實體中間Middle,命名實體結尾End,單字的詞/獨立命名實體Single。
(5)BMEWO
命名實體的開始Begin,命名實體中間Middle,命名實體外部(不是命名實體)Outer,命名實體結尾End,一個字的獨立命名實體Whole。
3.既有中文又有英文
(1)BIOX
如果處理的數據中有英文,采用BIOX。
命名實體的開始Begin,命名實體內部Inner,命名實體外部(不是命名實體)Outer。
X標注英文單詞分詞之后的非首單詞。也就是詞根用BIO正常標注,詞綴用X表示。
eg:playing 輸入BERT模型前會被BERT自帶的Tokenization工具分為“play”和“#ing”。二者分別標注為O和X。
4.用BERT做NER的運算邏輯
5.NER下接結構(BiLSTM+CRF)
參考:
https://www.cnblogs.com/jiangxinyang/p/9368482.html
https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/
https://www.bilibili.com/video/BV1BK4y1C7Hj?from=search&seid=13802326660109437745