Discourse(我不知道怎么翻譯)


Discourse

之前介紹的NLP任務大多是研究詞匯句式,其實還有很多NLP任務是為了解決文檔document級別的問題,為了更好地理解句子之間是怎么組合成文檔的。

三個主要任務

1. Discourse segmentation

我們知道一篇文檔的內容往往是有幾個部分通過一些銜接部分組合起來的,比如段落。那么如何使用機器學習的方法來根據含義自動分割文檔呢?最簡單的方法就是依次比較兩句相鄰的句子的相似度,分割點往往就產生在相似度最低的地方,這種非監督的方法叫做Text Tiling。當然,也可以采用監督學習的方法,如構造分類器或是序列模型來檢測分割點。
p1

2. Discourse parsing

常用的解析Discourse的框架有Rhetorical Structure Theory (RST)框架,
p2
對英語來說,常見的RST關系有conjuction, justify, concession, elaboration等,如下圖所示,
p3

那么問題來了,怎么去尋找這些關系呢?一種最直接的方法就是基於規則,如根據一些標志性的詞(but,so,for example,etc.),另一種方法就是使用機器學習,常用的特征有Bag of words,Discourse markers,Starting/ending n-grams,Location in the text,Syntax features,Lexical and distributional similarities。

3. Anaphora resolution

這個任務就是要解決指代問題,比如后文出現的“他”具體指的是誰。解決這個問題的一個方法是Centering Algorithm,通過尋找Forward-lookingcenters匹配Backward-lookingcenter。
p4

也可以采用一些分類的方法,並把限制條件和要求加入到特征中,如

‣ Binary features for number/gender compatibility

‣ Position of antecedent in text

‣ Include features about type of antecedent


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM