中文事件抽取關鍵技術研究(譚紅葉 博士畢業論文)
事件抽取的定義
ACE2005 將該項任務定義為:識別特定類型的事件,並進行相關信息的確定和抽取,主要的相關信息包括:事件的類型和子類型、事件論元角色等。根據這個定義,可將事件抽取的任務分成兩大核心子任務:(1)事件的檢測和類型識別;(2)事件論元角色的抽取。除此以外,由於絕大部分的論元角色都是實體,因此實體的識別也是事件抽取的一項基本任務。
信息抽取的定義
Andrew McCallum所提出的定義具有普遍意義。他將信息抽取定義為(A.McCallum. Information Extraction: Distilling Structured Data from Unstructured Text. ACM Queue 2005, 2005: 49~57):
從無結構或松散結構的文本中對數據庫的字段進行填充並形成記錄。涉及到這樣幾個子任務:①切分處理(Segmentation):主要是識別可以填充數據庫字段的文本片段的起始位置。②分類(Classification):主要是 確 定 文 本 片 段 要 填 充 的 數 據 庫 字 段 是 什 么 , 通 常 Segmentation 和Classification在系統中同時進行。
目前信息抽取的局限性
信息抽取系統仍然存在一些局限:1.精度不高;2.不可移植;3.組件不確定沒控制
信息抽取的主要方法
主要方法:
1基於知識工程的方法,由語言學家與領域專家通過觀察一些相關的文檔集,根據抽取任務手工編寫一定的規則來進行相關信息的抽取。(90年代)對格式化文本容易
2.統計和機器學習
2.1基於規則(決策樹規則)局限性:模式表達能力有限;難獲取復雜句或跨句的模式
2.2基於統計的方法:運用大量簡單特征,共同使用多種細致特征。HMM, CRF, MEMM,NB。
2.3多種機器學習混合的方法。
信息抽取發展
優秀的團隊:
Cymfony公司、Bhasha公司、Linguamatics公司、Revsolutions公司,紐約大學、加利福尼亞大學、尤他州大學、華盛頓大學等。在英國、德國、意大利、愛爾蘭等國家也有機構在進行相關研究。
優秀的系統:
AutoSlog、CRYSTAL、PROTEUS、WIEN 、 Softmealy 、 Stalker 、 Whisk 、 SRV 、RAPIER
精度文本格式
非常規律:(數據庫、數據庫生成的網頁)幾乎完美的性能
有規律可循的:(新聞等)95%
不規律的:
關系抽取一般精度為60%
研究趨勢的分析
在未來一段時間,研究關注的焦點應該是借助機器學習的方法,使系統只需最少的人工干預就能輕易地適用於新的領域和新的數據格式並能夠快速地處理大規模、不受格式和領域限制的文檔集合。
(1)簡單訓練和半監督學習。
(2)交互式抽取。
(3)不確定性估計和多個假設的管理。
事件抽取的核心任務
事件 mention 的識別、事件屬性的確定和論元角色的識別。
事件的屬性信息:(類型、子類型【重要】)、模態、傾向性、普遍性、時態。
論元角色:實體、數值、時間。
事件抽取的主要方法
1.基於多種機器學習的混合方法(多個子任務)
2.半監督和無監督的學習方法
實體識別方法
(1)基於規則的方法。在早期的名實體識別系統中,大多采用這種方法,具體有:決策樹方法,基於轉換的方法,文法方法。
(2)基於幾何空間判別的方法。具體包括:支持向量機方法,Fisher判別分析,神經網絡方法。 (我比較感興趣)
(3)基於概率統計的方法。是名實體識別的主流方法和技術。具體有:Bayes 判別方法,N-gram 模型,HMM 模型,ME 模型,MEMM 模型和CRF 模型。
半監督學習的主要方法
自訓練(Self-training),協作訓練(Co-training),直推式(Transductive)SVM和基於圖的方法(Graph-based methods)等等。
自訓練(self-training/self-teaching/boostrapping)
它的主要思想是:首先利用少量的已標注數據或初始種子集合訓練一個初始分類器,然后用初始分類器對未標注數據進行分類,並將可信度最大的數據加入到已標注數據中。接着在不斷擴大的已標注數據集上,重復上述過程直到得到一個較為精確的分類器。
局限性:(1)初始種子不同,分類器的性能不同,分類器收斂的速度也不同。(2)Bootstrapping 過程中出現的分類錯誤會在自我訓練過程中被逐漸放大,並導致該過程失敗。因此,初始種子的選擇和新標注實例的評價和選擇是該算法的關鍵。(以前我做無監督的時候,沒有意識到這是一種比較成熟的方法吧,看來看的東西太少)
種子選擇:實例種子或者模式種子。
評價函數:最簡單的是計數或概率。
模式
信息抽取中的模式是指可以傳遞特定領域中關系和事件信息的語言表達式。
信息抽取中,模式由多個項(Item)或槽(Slot)組成,其中包括:抽取項、觸發項和約束項。抽取項又稱為目標項,約束項有時稱為約束條件,主要用來在文本中確定目標項的相關信息,以確保抽取的信息准確。約束條件主要包含句法約束與語義約束。觸發項用來觸發一個模式在文本片段的匹配。
(找三種模式,抽取到的內容扔到分類器中對么?)
模式的不同主要表現在以下幾個方面:
(1)抽取粒度不同。有的模式可以直接抽取出准確的目標項,而有的模式抽取的是包含目標項的句法成分。
(2)約束強度不同。如果模式的約束條件越多,使用的語義約束越多,則其約束強度越強。隨着約束強度的增加,模式的嚴格性增加,可以確保抽取的目標項的准確性,但模式的表達能力或覆蓋能力會下降。
(3)抽取效率不同。有的模式一次可以抽取多個目標項,而有的模式一次只能抽取一個目標項。類似前者的模式稱作多槽(Multi-slot)抽取模式,而后者稱為單槽(Single-slot)抽取模式。如模式示例 1 為一個單槽抽取模式。如果采用這種模式,系統需要為每一個目標項生成對應的模式。
Bootstraping方法
(1)手工建立初始種子集Sseed,候選模式集Pcand = null, 可用模式集Paccepted= null。
(2)抽取模式,加入到建立候選模式集Pcand。根據種子集Sseed,在訓練語料中抽取窗口大小為L的上下文模式加入到候選模式集Pcand。
(3)選擇模式加入到可用模式集Paccepted。利用一定的評價函數Fpattern計算候選模式集Pcnd中每個模式的分數,並按照分數對模式排序。 滿足一定條件的模式加入可用模式集Paccepted中。
(4)利用可用模式集Paccepted識別相關名實體,構成候選實例集合Icand。
(5)判斷迭代是否終止。如果候選實例集合穩定即不再有新的實體名被識別,或滿足一定的迭代次數,或可用模式集達到一定的規模,則循環終止;否則執行(6)。
(6)根據可信實例,確定新種子。首先Sseed= null,然后利用一定的評價函數Finstance計算候選實例集Icand中每個實例的分數,並按照分數對實例排序。滿足一定條件的實例為可信實例,並且加入到種子集Sseed。
(7)返回步驟(2)開始繼續循環。
公式(2-1)是對模式的評價。其中, NumCommWord(Pj)為模式Pj抽取的普通詞個數,普通詞指被詞典收錄的詞。 TotalNumterm (Pj)為模式Pj抽取出的目標項的總個數。這個公式通過模式可以抽取出的普通詞與所有抽取項個數的比例對模式進行評分。該公式表明:如果一個模式抽取出的普通詞越多,則這個模式對目標項的指示性越弱,即這個模式識別目標項的准確率越低。
公式(2-2)是對實例的評價。其中, Pi為本次迭代中抽取出實體NEj的任一模式,n為本次迭代中抽取出實體NEj的所有模式的總數。該公式通過可以抽取出該實例的模式的可靠程度來評價實例的可靠性。
模式泛化
一般通過放寬模式的約束條件來實現,如:縮短模式長度、利用詞性或語義標記代替詞形信息等等。
硬模式(Hard pattern)和硬匹配(Hard match):若模式的形式固定,且在模式匹配時需要精確匹配,則稱此模式為硬模式,相應的精確匹配稱為硬匹配。如:2.3 部分抽取出的模式集合就屬於硬模式集合。 (正則表達式吧?)
軟模式(Soft pattern)和軟匹配(Soft match):若模式的形式比較靈活,且在模式匹配時不需要進行精確匹配,則稱此模式為軟模式,相應的匹配稱為軟匹配。 軟模式的形式為:
<Token-L,i, W-L,i>…<Token-1,1, W-1,1>INTEREST_CLASS<Token+1,1, W+1,1> …<Token+L,i W+L,i>
其中,Token-L,i表示第L個槽中可能出現的任何信息,如:詞形、詞性和語義類別等信息,W-L,i是權重,表示Token-L,i的重要性程度。
與硬模式類似,軟模式也由多個槽組成。而且Token-L,i的信息與硬模式類似。
軟模式和硬模式的主要不同表現在:
(1)每個槽都包含權重信息WL,i來表示TokenL,i的重要性程度。一般來說根據需要不同,WL,i的定義不同,可以是概率、相似度以及錯誤率等等。
(2)硬模式中的每個槽在軟模式被擴展成一個詞兜(Bag of words, BOW)。即,每個槽可能出現多個詞語,每個詞語的權重不同。
(3)模式匹配不同。硬模式要求進行硬匹配,所有的槽信息必須精確匹配。軟模式由於包含權重信息,可以通過相似度計算或概率計算實現軟匹配,即模糊匹配。
WL,I = P(Tokenl,i)=Num(Tokenl,i)/TotalNum(Token_in_slotl)
其 中 ,Num(Tokenl,i)是在槽slotl中出現的次數,TotalNum(Token_in_slotl)是槽slotl中出現的所有Token的次數。這些參數可以通過硬模式集合得到。
2-4計算uni-gram聯合概率;2-5計算bi-gram聯合概率
軟模式:
沖突仲裁
(1) 聯合概率大者優先。如果候選實體A的聯合概率“遠大於”候選實體B的聯合概率,則候選實體A為最終識別結果。具體使用公式(2-4)計算聯合概率時,對概率值取其對數的相反數。如果二者之差大於2就被認為是“遠大於”。
(2) 聯合概率與二元共現概率之和大者優先。如果不滿足規則(1),則分別計算候選實體A與B的序列概率與聯合概率之和,取和大者為最終識別結果。
(3) 實體長度大者優先。如果不能滿足規則(1)和規則(2),則將長度大者作為最終識別結果。
把軟模式轉化為向量特征
沖突仲裁
(1) 相似度大者優先。如果候選實體A的相似度大於大於候選實體B的相似度,則候選實體A為最終識別結果。
(2) 實體長度大者優先。如果不能滿足規則(1),則將長度大者作為最終識別結果。
利用cos作為相似度的指標
數據不均衡的問題
由於ACE語料存在着規模小、類別分布不均衡現象(Data imbalance),因此,所提出的事件檢測與分類方法應該能夠克服類別分布不平衡的問題。有很多人嘗試去解決數據偏斜問題。有人提出通過一定的策略減少反例數量,來獲取更平衡的數據(Z.H. Zheng, X.Y. Wu, R. Srihari. Feature Selection for Text Categorization on Imbalanced Data. SIGKDD Explorations, 2004, 6(1):80-89;)有人提出將問題轉化為不受類別分布影響的分類問題來進行分類(蘇金樹,張博鋒,徐昕,基於機器學習的文本分類技術研究進展,軟件學報,2006, 17(9):1848-1859);也有人認為在不平衡數據上特征選擇比分類算法更為重要(G. Forman. a Pitfall and Solution in Multi-Class Feature Selection for Text Classification. Proceedings of the 21st International Conference on Machine Learning (ICML2004), Banff, Canada, Morgan Kaufmann Publishers, 2004(9):38-46)。這里嘗試通過好的特征選擇策略來克服數據的不平衡問題,完成事件的檢測和分類。
句子的表示
自然語言處理中文本表示模型主要有:布爾模型、向量空間模型、潛在語義模型、概率模型和N元語法(N-gram)模型。
如果特征項是詞,則一個文本對應的向量又稱作詞兜(bag of words, BOW)。有很多研究表明比 BOW 復雜的數據表示形式(如:將短語作為特征項)並不能有效提升分類器的性能。因此 BOW 已經成為 NLP 中文本表示的一個標准方法。
特征選擇
在實際問題中,特征空間(Feature space)的維數(Dimensionality)一般都非常大,特征維數過高不僅影響分類器的速度,而且會帶來過擬和(Overfitting)問題,同時特征空間中並不是每個特征都對分類有明顯的作用。因此,通過有效的方法來降低特征空間的維數顯得尤為重要。主要的降維方法有特征選擇(Feature selection)和特征抽取(Feature extraction)兩類方法。特征選擇指從原始的特征集中通過一定的方法選擇特征構成新的特征子集。特征抽取是指從原始特征集中采用一定的策略生成新的特征構成新的特征集。本文采用基於特征選擇的方法降低特征維數,改進分類器的性能。
特征選擇方法分成封裝器(Wrapper)模式和過濾器(Filter)模式兩種。Wrapper方法在特征選擇上表現最佳。常見的用於文本領域問題的比較著名的特征過濾方法有:文檔頻率(Document frequency, DF)、信息增益(Information gain,IG)、 (Chi-square)統計量,互信息(Mutual information, MI)、相關系數(Correlation coefficient,CC)、Odds Raito(OR)等策略。
全局特征選擇(Global feature selection, GFS)指對所有的類別都使用通用的特征選擇過程,並且在識別過程中共享一個特征集合。局部特征選擇(Local feature selection, LFS)是指特征選擇針對每一個類別進行,不同的類別使用不同的特征集合,因此特征選擇的方法可以不同。
正特征(Positive feature, PF)對樣例屬於某個類別有很強的預測能力,即包含該特征的樣例很大程度上屬於某個類別;負特征(Negative feature, NF)可以很好地預測樣例與某一個類別不相關,即包含該特征的樣例很大程度上不屬於某個類別。
英語的詞法分析、短語分析、句法分析准確率
英文的詞法分析、短語分析和句法分析的准確率分別為99%、92%和90%。S. B. Zhao, R. Grishman. Extracting Relations with Integrated Information Using Kernel Methods. Proceedings of the 43rd Annual Meeting of Association of Computational Linguistics(ACL2005), Ann Arbor, 2005: 419-426
擴展特征
(1)詞林特征。91 梅家駒. 同義詞詞林. 上海辭書出版社, 1996 哈 工 大 信 息 檢 索 實 驗 室 . 同 義 詞 詞 林 擴 展 版 ( 電 子 版 . 2006 ,http://ir.hit.edu.cn/)
(2)知網 特征。該特 征主要指當前詞在Hownet中定義的義元(SemUnit)解釋,旨在利用知網(Hownet)中提供的義元解釋來覆蓋意相近的詞。具體使用時,為每個義元指定一個編碼從而得到每個詞的義元解釋代碼。董振東, 董強. HowNet2005. http://www.keenage.com. 2005