基於規則的關系抽取
流程
- 基於規則和人工抽取關系詞——>基於抽取的關系詞抽取關系句——>基於人工總結的模板結合同義詞和re模塊進行模板匹配抽取三元組
規則
-
句子關系詞抽取(所謂的關系詞就是含有某個關系的句子,經常出現並且特有的詞,要有區分度:與全局普通句子的區分度,與其他關系句子的區分度)
- 采用類似於tfidf的方式抽取每類關系的關系詞,統計每類句子的詞頻進行排序,抽取其中局部常見,全局少見的詞
-
關系句提取
- 根據每類關系詞,設置閾值抽取每類關系的關系句(對關系詞高度依賴)
- 根據規則,含有某個關系的關系詞的句子判定為該關系的關系句
-
句子三元組抽取
- 人工定義模板,A是頭實體,B是為實體,模板如下:(基於上文的關系句總結模板)
- 基於re正則表達式匹配符合模式的句子,並匹配句子中的A和B部分(這部分需要用到之前提到的[領域詞]
- 利用synonyms找到關系詞的近義詞,將模板擴充,例如:(.*)是|由組成。