論文閱讀(1)篇章關系分析研究綜述


0. 摘要

1. 引言


(1)有利於篇章文本結構化

(2)具有廣泛的應用價值

  • 篇章的因果關系:用於自動問答和事件關系抽取;

  • 對比關系:用於研究情感分析;

  • 擴展關系:用於自動文摘和篇章關鍵詞抽取。

  • 另外,在機器翻譯中也得到廣泛應用。

2. 語料資源

RSTDT、PDTB、HIT-CDTB

RSTDT、PDTB和HIT-CDTB之間的差異

其次介紹三種語料的 標注過程基本組成相應的實例分析

2.1 三種語言學資源的區別



2.2 RST篇章樹庫(RSTDT)概述



  • 修辭結構:是指篇章內各片段間,依靠 語義修辭關系 進行相互連接,構成整體篇章關系層次結構。

  • 基本篇章單元(EDU):對篇章文本進行切分,目的是 形成若干句型獨立且能表達一定語義的片段

針對 RSTDT 中定義的 修辭結構關系,列舉實例如圖1所示。根據上述標注方法:

  • 首先根據文本語義將原句切分為三個EDU;

  • 然后識別相鄰EDU間的修辭關系,並將原句表示成層次化的樹形結構。

  • 如圖1所示,EDU2與EDU3存在 “對比(Con trast)”關系,而 EDU2和EDU3整體 與 EDU1存在 “時序之后( Temporal-After)”關系,形成修辭關系結構樹。

  • 根據“衛星中心”理論,箭頭由表示修飾的輔助成分 (Satellite)指向語義關系的中心(Nucle-us)

2.3 賓州篇章樹庫(PDTB)概述

小結:

  • 論元: 由 連接詞 銜接的兩個片段

  • 由連接詞引導的論元 記為Arg2,另一論元為Arg1。Arg1和Arg2組成“論元對”

  • 顯隱式篇章關系,是PDTB根據論元間是否包含連接詞進行划分的。

針對目前研究重點關注的顯式與隱式關系類型,具體實例分析如下:

  • PDTB中的顯式關系,如例1所示,由連接詞“but(但是)” 引導的 Arg1和Arg2間 的篇章關系屬於 “對比( Comparison)”關系。

  • 相對地,隱式關系如例2所示,論元對之間無連接詞,但能 根據語義 推斷 論元對 之間屬於“時序(Temporal)”關系。

    • 例2中用方括號注明的 “Implicit=at the time” 是人為添加的,表明論元間的隱式連接詞為“ at the time(當時)”。

2.4 中文篇章樹庫(HIT-CDTB)概述

3. 篇章關系分析任務及評測方法

3.1 修辭結構關系分析

3.2 篇章語義關系分析(基於PDTB和HIT-CDTB)

目前篇章語義分析,主要針對 篇章片段中的語義連接關系 進行識別並分類。

  • 任務定義

PDTB 和 HIT-CDTB語料都是針對 篇章語義分析研究 展開標注的。

其中,關於顯隱式篇章關系的研究較多,下面以PDTB為例進行介紹。

  • 評測方法

    • 分別針對 各個篇章語義關系的分類性能篇章語義關系分類的整體性能 進行評測。

    • 其中,通過 構建多個分類器 預測 各個 篇章語義關系的分類結果。

    • 如,評估 因果關系 的分類性能,可以將該類別的實例作為正例,其他關系類別的實例作為負例。

      • 由此,構建二元分類器。
    • 通過 准確率P、召回率R、F值、精確率Accuracy 等評測指標,分析該篇章語義關系分類器性能。

    • 在評估 篇章語義關系整體分類性能 時,采用 多元分類器,通過 精確率 衡量分類性能。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM