面向知識庫的中文自然語言問句的語義理解
目標:將中文的自然語言轉化為SPARQL查詢
基本方法:
自然語言預處理:分詞(ICTCLAS),命名實體識別,句法分析(Standford Parser)得到句法分析樹
1、利用句法分析樹構建用戶的查詢語義圖(查詢語義圖是用來描述用戶的查詢中實體關系的一張圖,其中頂點表示命名實體或名詞性變量,邊表示頂點之間的關系)
2、實體消歧(將查詢語義圖中頂點對應到知識庫中實體)
3、謂詞消歧(將查詢語義圖中的邊映射為知識庫中的邊)
將自然語言中的關鍵詞映射為知識庫中的關系
3.1收集與關系相關度較高的關鍵詞(首先為知識庫中每個關系收集相關度比較高的動詞短語和名詞短語)
3.1.1對於任意一種關系a,首先抽取實體對R(a)<s,o>放入實體對集合P(a),收集所有出現P(a)中實體對的句子,放入S(a),對句子進行詞性標注,將名詞和動詞的集合看作單個文檔,把文檔統一計算每個詞tf-idf值,最后進行降序排序。這樣就得到與每個關系相關,並且按照相關程度從高到低排序的詞的列表。
3.2謂詞映射(定義一種計算詞語相關度的算法,利用收集到的詞將圖中的謂詞映射到語義上最相關的關系)
4將查詢語義圖轉換成SPARQL語句