實體消歧
任務定義
通過六元組來定義:
M=N,E,D,O,K,&
N是待消歧的實體名集合,如李娜,邁克爾喬丹等
E是待消歧實體名的目標列表,包括了可能指向的實體,如李娜(跳水運動員)
D是一個包含了待消歧實體名的文檔集,如包含邁克爾的網頁集合
O=是D中的實體指稱項集合。一個實體的指稱項是在具體上下文中出現的待消歧實體名。
K是命名實體消歧任務所使用的背景知識。關於目標實體的描述。
&:OxK->E
任務分類
目標列表是否給定,分為基於聚類的消歧系統和基於實體鏈接的消歧系統
- 基於聚類的實體消歧系統
由於目標實體列表沒有給定,基於聚類的命名實體消歧系統以聚類方式對實體指稱項進行消歧。將指向同一個目標的實體的指稱項聚到同一類別下。 - 基於實體鏈接的實體消歧系統
與目標實體列表中的對應實體進行鏈接實現消歧。
相關評測
- WePs
評測指標
- 純凈度
只要用於評測聚類結果中每個類別的所有指稱項是否都指向同一個實體 - 倒純凈度
評測聚類結果中的每個類別是否召回了足夠多的該類別下的指稱項 - F值
- TAC KBP
鏈接到目標實體上
所有鏈接的平均准確率
基於聚類的實體消歧方法
步驟:
- 對每個實體指稱項o,抽取其特征(上下文的詞,實體,概念)組成特征向量
- 計算指稱之間的相似度
- 采用某種聚類方法對指稱項聚類
關鍵問題是計算相似度,分為一下三類:
基於表層特征的實體指稱項相似度計算
bag of words的延伸,計算termxiangl ,每個權重采用經典的tf-idf來表示。沒有考慮到上下文的內在關聯。
基於擴展特征的實體指稱項相似度計算
擴展特征,上下文信息,類別信息,一般網頁的實體名等
層次化分類體系
結構化關聯語義
基於社會化網絡的實體指稱項相似度計算
通過傳遞性發現隱藏的關系,缺點在於只用了上下文的實體信息,沒有用到實體指稱項的其他上下文信息。
基於實體鏈接的實體消歧方法
一個命名實體的文本指稱項鏈接到知識庫中相應實體的過程。
輸入有兩部分:
- 目標實體知識庫
實體表,實體的文本描述,實體的結構化信息(屬性,屬性值對)、實體的輔助性信息,額外的結構化語義信息,如實體的關聯 - 待消歧實體指稱項及其上下文信息
鏈接的步驟: - 鏈接候選過濾
過濾掉不可能指向的實體 - 實體鏈接
重點
鏈接候選過濾方法
基於實體指稱項詞典,獲取它所指向的候選實體
模糊匹配的方法
實體鏈接方法
通過打分的方法對指稱項最高的實體作為目標實體
-
向量空間模型
基於實體指稱項上下文與目標實體上下文中特征的共現信息來確定。
向量表示-
抽取有效的特征表示
-
有效地計算向量之間的相似度
-
-
主題一致性模型
實體指稱項的候選實體概念與指稱項上下文中的其他實體概念的一致性程度- 上下文實體的重要程度
傳統方法使用實體與文本內其他實體的語義關聯的平均值作為重要性程度的打分。 - 如何計算一致性
加權語義關聯平均為其一致性打分
- 上下文實體的重要程度
-
協同實體鏈接
上面只處理單個實體指稱項的鏈接問題,忽略了單篇文檔內所有實體指稱項的目標實體之間的關系。對文檔內所有實體指稱項進行協同鏈接有助於提升實體鏈接的性能。 -
基於神經網絡的實體消歧方法
面向結構化文本的實體消歧方法
利用實體的類別信息,實體的流行度和列表中的其他信息進行消歧。
原文地址:https://blog.csdn.net/qq_24495287/article/details/87545343 </div>