人物關系挖掘方案設計


 

 
背景
 
拓展知識圖譜-人物關系模塊,激發用戶興趣點擊,提升流量。
 
 
要解決的問題
 
1、識別人名:ner 命名實體識別。
2、識別兩個人是有關系的;
  人名共現來說明兩個人之間有關系;
  詞向量計算詞與詞之間的相似度來說明兩個人之間關系。
3、人物關系挖掘。
  兩個人名滿足某種依存模式,則將兩個人名和關系抽取出來。
  用到的相關nlp算子:分詞、詞性標注、命名實體識別(NER)、依存語法分析、語義角色標注
  依存句法中我們所用到的主要關系有:主謂關系(SBV)、動賓關系(VOB)、定中關系(ATT)、並列關系(COO)、介賓關系(POB);
 
技術方案、基於依存句法的人物關系抽取
 
 
 
 
 
 
核心工程
 
 
模式_實例1
 
兩人名實體同時位於主語,並列關系
例如:1914年,孔祥熙與宋靄齡於日本結婚。
 
利用哈工大語言雲進行句法分析得到結果如下:
 
 
 
模式_實例2
 
  兩人名實體同時位於主語,修飾關系。特征詞分別采用角色詞或者人物詞進行不同策略的挖掘。
  例如:鄧超的妻子孫儷也是著名演員。
 
  使用句法分析得到結果如下:
 
 
 
 
 
模式_實例3
 
  兩人名實體位於賓語,修飾關系
  例如:他的妻子以往被認為是洪秀全的妹妹洪宣嬌。
 

 

 
 
模式_實例4
 
  兩人名實體分別為主語和賓語,這種情況時, 選取謂語動詞作為特征詞
 
  例如“子路師從孔子”
 
 
 
 
模式_實例5
 
  關系名為主語、人名2為賓語,這種情況時,選取謂語動詞“是”作為特征詞。
  例如“禹智皓的哥哥是韓國男歌手禹泰雲”
 
 
訓練數據
 

部分訓練樣本

金城武在經濟公司的安排下師從歌手陳升
子路師從孔子
禹智皓的哥哥是韓國男歌手禹泰雲
賈巴里·帕克的父親桑尼·帕克是前NBA球員   APP
鄧超的妻子孫儷也是著名演員  APP兩人名實體同時位於主語,修飾關系
1914年,孔祥熙與宋靄齡於日本結婚    兩人名實體同時位於主語,並列關系
他的妻子以往被認為是洪秀全的妹妹洪宣嬌  兩人名實體位於賓語,修飾關系
韓雪在年代武俠劇《葉問》中飾演葉問的妻子張永成
劉濤共同出演古裝愛情劇《大理公主》飾演貧苦寡婦楊玉姣的女兒楊阿細

  

 

 

 

優化方案
 
  指代消解。針對那些語句中有代詞情況,考慮采用指代消解方案進行優化!
    提高精准度特殊處理方式:
    1、特定關系,必須滿足姓氏相同。如:妹妹、弟弟、哥哥、父親、女兒、兒子、爺爺
    2、語義提取,太依賴於nlp服務本身,在項目中發現,句法分析中出現部分中文詞無法提取出來(這種nlp的句法分析服務暫沒提供自定義詞庫功能);
    3、ner的識別問題,通過增加分詞,並增加一些自定義的分類方式,提高ner的識別度!
 
數據評估——衡量方法的優劣
 
1、大多采用准確率和召回率和F1值來衡量方法的優劣。
2、F1值為准確率和召回率的加權幾何平均值,具體定義如下。
  β是准確率和召回率的相對權重,β= 1,認為兩個指標重要性是相同的;β>1,召回率權更重要一些;β<1時,准確率更重要一些。
 

 

 
數據評估方式
 
  數據標注:
      1) 先跑出一版數據,然后再數據上做正確的標注;
  評估方式:
      1) 關系挖掘數據評估;
      2) 內鏈數據評估;
   新聞數據評估:
      1) 近似認為與原語料相同,進行數據類挖掘;
 
 
規則提取特征:
1) 換行提取
   丘和

 

 2) 單行

丘行恭

 

 

 
推薦
 
 
 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM