【問題描述】
如何對以下序列進行標注,並完成NER的命名實體識別任務?
“通過檢測煙霧的濃度來實現blabla……” 想要提取的是“檢測煙霧濃度”這個詞。
【字級別標注】
(1)——通(O)過(O)檢(B)測(I)煙(I)霧(E)的(O)濃(B)度(E)來(O)實(O)現(O)blabla……
以上標注只能識別出“檢測煙霧”和“濃度”這兩個詞,將目標“檢測煙霧濃度”分開了,所以不對。
(2)——通(O)過(O)檢(B)測(I)煙(I)霧(I)的(O)濃(I)度(E)來(O)實(O)現(O)blabla……
據說這種標注方式,即把“I”后面接除了“I”或者"E"之外的字母,是不允許的。因為CRF的約束條件中,就約束了BIESO這幾個標簽的前后關系,其中'I'后面不能接"O"或者“S”?
所以,需要改動CRF的約束條件?這部分沒想明白,應該要去深入了解一下CRF原理。
【詞級別標注】
首先是對句子分詞:
通過| 檢測| 煙霧| 的| 濃度| 來| 實現| blabla
標注:
(1)——通過(O)| 檢測(B)| 煙霧(E)| 的(O)| 濃度(S)| 來(O)| 實現(O)| blabla(O)
和字級別的標注問題一樣,把檢測煙霧和濃度分開了,不是想要的結果。
(2)——通過(O)| 檢測(B)| 煙霧(I)| 的(O)| 濃度(E)| 來(O)| 實現(O)| blabla(O)
和字級別的標注問題一樣,BIE標簽順序中,“I”后面智能接“I”/“E”,不能接“O”。???
【參考】
【https://www.cnblogs.com/jiangxinyang/p/9368482.html】【這篇講得很好 但和我的問題不相關】
【實踐/解決】
【待補充】