背景
拓展知識圖譜-人物關系模塊,激發用戶興趣點擊,提升流量。
要解決的問題
1、識別人名:ner 命名實體識別。
2、識別兩個人是有關系的;
人名共現來說明兩個人之間有關系;
詞向量計算詞與詞之間的相似度來說明兩個人之間關系。
3、人物關系挖掘。
兩個人名滿足某種依存模式,則將兩個人名和關系抽取出來。
用到的相關nlp算子:分詞、詞性標注、命名實體識別(NER)、依存語法分析、語義角色標注依存句法中我們所用到的主要關系有:主謂關系(SBV)、動賓關系(VOB)、定中關系(ATT)、並列關系(COO)、介賓關系(POB);
技術方案、基於依存句法的人物關系抽取


核心工程

模式_實例1
兩人名實體同時位於主語,並列關系
例如:1914年,孔祥熙與宋靄齡於日本結婚。
利用哈工大語言雲進行句法分析得到結果如下:

模式_實例2
兩人名實體同時位於主語,修飾關系。特征詞分別采用角色詞或者人物詞進行不同策略的挖掘。
例如:鄧超的妻子孫儷也是著名演員。
使用句法分析得到結果如下:

模式_實例3
兩人名實體位於賓語,修飾關系
例如:他的妻子以往被認為是洪秀全的妹妹洪宣嬌。

模式_實例4
兩人名實體分別為主語和賓語,這種情況時,
選取謂語動詞作為特征詞。
例如“子路師從孔子”

模式_實例5
關系名為主語、人名2為賓語,這種情況時,選取謂語動詞“是”作為特征詞。
例如“禹智皓的哥哥是韓國男歌手禹泰雲”

訓練數據
部分訓練樣本
金城武在經濟公司的安排下師從歌手陳升 子路師從孔子 禹智皓的哥哥是韓國男歌手禹泰雲 賈巴里·帕克的父親桑尼·帕克是前NBA球員 APP 鄧超的妻子孫儷也是著名演員 APP兩人名實體同時位於主語,修飾關系 1914年,孔祥熙與宋靄齡於日本結婚 兩人名實體同時位於主語,並列關系 他的妻子以往被認為是洪秀全的妹妹洪宣嬌 兩人名實體位於賓語,修飾關系 韓雪在年代武俠劇《葉問》中飾演葉問的妻子張永成 劉濤共同出演古裝愛情劇《大理公主》飾演貧苦寡婦楊玉姣的女兒楊阿細
優化方案
指代消解。針對那些語句中有代詞情況,考慮采用指代消解方案進行優化!
提高精准度特殊處理方式:
1、特定關系,必須滿足姓氏相同。如:妹妹、弟弟、哥哥、父親、女兒、兒子、爺爺
2、語義提取,太依賴於nlp服務本身,在項目中發現,句法分析中出現部分中文詞無法提取出來(這種nlp的句法分析服務暫沒提供自定義詞庫功能);
3、ner的識別問題,通過增加分詞,並增加一些自定義的分類方式,提高ner的識別度!
數據評估——衡量方法的優劣
1、大多采用准確率和召回率和F1值來衡量方法的優劣。
2、F1值為准確率和召回率的加權幾何平均值,具體定義如下。
β是准確率和召回率的相對權重,β= 1,認為兩個指標重要性是相同的;β>1,召回率權更重要一些;β<1時,准確率更重要一些。

數據評估方式
數據標注:
1) 先跑出一版數據,然后再數據上做正確的標注;
評估方式:
1) 關系挖掘數據評估;
2) 內鏈數據評估;
新聞數據評估:
1) 近似認為與原語料相同,進行數據類挖掘;
規則提取特征:
1) 換行提取

推薦
