序列標注


1.NER簡介

(1)單句子標注任務,又叫命名實體識別(Named Entity Recognition),或者“專名識別”,簡稱NER,是一個序列標注任務。

(2)NER是指識別文本中具有特定意義的實體,包括三大類(實體類,時間類,數字類),七小類(人名P/PER(person),地名A/LOC(address,local),機構名O/ORG(organization),時間TIME,日期,貨幣,百分比)。

(3)通常包括兩部分:實體邊界識別;確定實體類別。

(4)常見的NER數據集有CoNLL-2003 NER。

(5)NER的輸入數據是什么?【查】

參考:

  https://blog.csdn.net/libaominshouzhang/article/details/100100547

  https://www.pianshen.com/article/874512843/

(6)輸出數據是NER數據文件。

(7)NER的數據格式:NER數據文件每一行由一個字和對應的標注組成,常用BIO和BIESO兩種標注,句子之間用一個空行隔開。

2.純中文標注

(1)IO

命名實體內部 Inner,命名實體外部(不是命名實體)Outer。

(2)BIO(常用)

命名實體的開始Begin,命名實體內部Inner,命名實體外部(不是命名實體)Outer。

 

(3)BIESO(常用)

命名實體的開始Begin,命名實體內部Inner,命名實體外部(不是命名實體)Outer,命名實體結尾End,單字的詞/獨立命名實體Single。

位置實體的開頭(B_LOC),位置實體的中間(I_LOC)。

(4)BMES

命名實體的開始Begin,命名實體中間Middle,命名實體結尾End,單字的詞/獨立命名實體Single。

(5)BMEWO

命名實體的開始Begin,命名實體中間Middle,命名實體外部(不是命名實體)Outer,命名實體結尾End,一個字的獨立命名實體Whole。  

3.既有中文又有英文

(1)BIOX

如果處理的數據中有英文,采用BIOX。

命名實體的開始Begin,命名實體內部Inner,命名實體外部(不是命名實體)Outer。

X標注英文單詞分詞之后的非首單詞。也就是詞根用BIO正常標注,詞綴用X表示。

eg:playing 輸入BERT模型前會被BERT自帶的Tokenization工具分為“play”和“#ing”。二者分別標注為O和X。

 

4.用BERT做NER的運算邏輯

 

 

5.NER下接結構(BiLSTM+CRF)

 

 

 

 

 

 

 

參考:

https://www.cnblogs.com/jiangxinyang/p/9368482.html

https://lingpipe-blog.com/2009/10/14/coding-chunkers-as-taggers-io-bio-bmewo-and-bmewo/

https://www.bilibili.com/video/BV1BK4y1C7Hj?from=search&seid=13802326660109437745

https://www.pianshen.com/article/874512843/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM