0. 摘要
1. 引言
(1)有利於篇章文本結構化
(2)具有廣泛的應用價值
-
篇章的因果關系:用於自動問答和事件關系抽取;
-
對比關系:用於研究情感分析;
-
擴展關系:用於自動文摘和篇章關鍵詞抽取。
-
另外,在機器翻譯中也得到廣泛應用。
2. 語料資源
RSTDT、PDTB、HIT-CDTB
RSTDT、PDTB和HIT-CDTB之間的差異
其次介紹三種語料的 標注過程、基本組成 及 相應的實例分析。
2.1 三種語言學資源的區別
2.2 RST篇章樹庫(RSTDT)概述
-
修辭結構:是指篇章內各片段間,依靠 語義修辭關系 進行相互連接,構成整體篇章關系層次結構。
-
基本篇章單元(EDU):對篇章文本進行切分,目的是 形成若干句型獨立且能表達一定語義的片段
針對 RSTDT 中定義的 修辭結構關系,列舉實例如圖1所示。根據上述標注方法:
-
首先根據文本語義將原句切分為三個EDU;
-
然后識別相鄰EDU間的修辭關系,並將原句表示成層次化的樹形結構。
-
如圖1所示,EDU2與EDU3存在 “對比(Con trast)”關系,而 EDU2和EDU3整體 與 EDU1存在 “時序之后( Temporal-After)”關系,形成修辭關系結構樹。
-
根據“衛星中心”理論,箭頭由表示修飾的輔助成分 (Satellite)指向語義關系的中心(Nucle-us)
2.3 賓州篇章樹庫(PDTB)概述
小結:
-
論元: 由 連接詞 銜接的兩個片段
-
由連接詞引導的論元 記為Arg2,另一論元為Arg1。Arg1和Arg2組成“論元對”
-
顯隱式篇章關系,是PDTB根據論元間是否包含連接詞進行划分的。
針對目前研究重點關注的顯式與隱式關系類型,具體實例分析如下:
-
PDTB中的顯式關系,如例1所示,由連接詞“but(但是)” 引導的 Arg1和Arg2間 的篇章關系屬於 “對比( Comparison)”關系。
-
相對地,隱式關系如例2所示,論元對之間無連接詞,但能 根據語義 推斷 論元對 之間屬於“時序(Temporal)”關系。
- 例2中用方括號注明的 “Implicit=at the time” 是人為添加的,表明論元間的隱式連接詞為“ at the time(當時)”。
2.4 中文篇章樹庫(HIT-CDTB)概述
3. 篇章關系分析任務及評測方法
3.1 修辭結構關系分析
3.2 篇章語義關系分析(基於PDTB和HIT-CDTB)
目前篇章語義分析,主要針對 篇章片段中的語義連接關系 進行識別並分類。
- 任務定義
PDTB 和 HIT-CDTB語料都是針對 篇章語義分析研究 展開標注的。
其中,關於顯隱式篇章關系的研究較多,下面以PDTB為例進行介紹。
-
評測方法
-
分別針對 各個篇章語義關系的分類性能 及 篇章語義關系分類的整體性能 進行評測。
-
其中,通過 構建多個分類器 預測 各個 篇章語義關系的分類結果。
-
如,評估 因果關系 的分類性能,可以將該類別的實例作為正例,其他關系類別的實例作為負例。
- 由此,構建二元分類器。
-
通過 准確率P、召回率R、F值、精確率Accuracy 等評測指標,分析該篇章語義關系分類器性能。
-
在評估 篇章語義關系整體分類性能 時,采用 多元分類器,通過 精確率 衡量分類性能。
-