tree-lstm初探


https://zhuanlan.zhihu.com/p/35252733

可以先看看上面知乎文章里面的例子

 

Socher 等人於2012和2013年分別提出了兩種區分詞或短語類型的模型,即SU-RNN(Syntactically-Untied RNN)和MV-RNN(Matrix-Vector RNN)。

1)SU-RNN對不同類型的組合節點使用不同的組合參數,如ADJ與NN組合時,使用WADJ-NN

但是,相同的節點類型也未必可以共享同一套組合參數,如同樣是形容詞,“好”和“壞”與其它詞在組合時,獲得的結果應該是不同的。

2)因此,MV-RNN將這種不同體現在每個節點上,而非不同種類的節點。它認為,每個節點除了需要使用向量表示外,還需要使用一個矩陣來表示,其中向量表示節點自身的屬性,而矩陣則表示其在組合時,對另一個節點的操作。例如,“紅”與“蘋果”組合的結果是“紅蘋果”,它仍然是一種“蘋果”,只是屬性發生了一些改變,可以通過將“紅”的矩陣與“蘋果”的向量相乘獲得“紅蘋果”的向量。

然而MV-RNN對每個節點除賦予一個向量外,還需要賦予一個矩陣,其中涉及到太多的參數需要學習,所以往往學習的並不充分。

3)為了獲得更好的學習效果,Socher等人於2013年提出了RNTN(Recursive Neural Tensor Networks)模型,即使用張量(Tensor)來表示組合參數。常用的三階張量可以被理解為多個矩陣構成的向量,其中每個矩陣可以被認為是某種類型的組合操作,最終組合在一起。通過張量,既可以減少所需學習的參數,也可以表示豐富的組合操作,因此RNTN模型也取得了較好的效果。在細粒度情感分析任務上,將MV-RNN獲得的44.4%的准確率,提高到了45.7%。其中細粒度情感分類指的是將句子所表達的情感,如褒貶等划分為5個級別,對應的是評論網站對商品打分的星級。

Socher等人以上一系列的工作都充分利用了自然語言樹結構的特性,因此事先需要對輸入的文本進行句法分析操作,然而由於句法分析自身並不完美,其個別錯誤的分析結果必然對上述模型的應用帶來不良的效果。

所以有一些學者,試圖將模型構築在非樹結構之上,並取得了非常好的結果。

4)如Le and Mikolov於2014年提出了Paragraph Vector模型,將著名的word2vec模型擴展到更長的文本之上,並在相同的情感分類任務上,將准確率進一步提高到48.7%。Kim於同年使用了更簡單的單層CNN(Convolutional Neural Networks)模型,在Dropout等技術的幫助下,也獲得了48.0%的准確率。在其它自然語言處理任務上,Zeng等人(2014)以及Zhou和Xu(2015)也在不使用句法分析的條件下,超越了基於樹結構的傳統模型(非深度學習模型)。

以上的工作是否就證明了,面向自然語言處理的深度學習模型真的不需要樹結構了呢?結論並沒有那么簡單,基於樹結構的模型也在不斷的發展

5)Tai等人2015年提出了Tree-LSTM模型,將序列的LSTM模型擴展到樹結構上,即可以通過LSTM的忘記門機制,跳過(忘記)整棵對結果影響不大的子樹,而不僅僅是一些可能沒有語言學意義的子序列。由於有了樹結構的幫助,就更容易對長距離節點之間的語義搭配關系進行學習,從而取得了更好的准確率(50.6%)。此工作也被Zhou和Xu(2015)所關注,並在其論文的最后說明,如果在其模型中使用樹結構,也許會取得更好的效果。當然,是否會如其所願還需要進一步的研究。

 

其中需要說明的是,在細粒度情感分類任務中,Li等提出可以使用標點符號這一簡單的特征,將句子分割成小的片段,然后構建層次化Bi-LSTM模型,即對每個小片段使用Bi-LSTM建模,獲得其表示。然后再使用一個Bi-LSTM模型將各個小片段的表示統一建模,獲得整個句子的表示。經過這種簡單的操作,一定程度上提高了序列模型的性能,使其又超過了樹結構模型的性能。

 

可以參考的論文:

Socher 等人於2012和2013年分別提出了兩種區分詞或短語類型的模型,即SU-RNN(Syntactically-Untied RNN)和MV-RNN(Matrix-Vector RNN)。

Socher等人於2013年提出了RNTN(Recursive Neural Tensor Networks)模型,即使用張量(Tensor)來表示組合參數。

Le and Mikolov於2014年提出了Paragraph Vector模型,將著名的word2vec模型擴展到更長的文本之上,並在相同的情感分類任務上,將准確率進一步提高到48.7%。

Kim於2014年使用了更簡單的單層CNN(Convolutional Neural Networks)模型,在Dropout等技術的幫助下,也獲得了48.0%的准確率。

在其它自然語言處理任務上,Zeng等人(2014)以及Zhou和Xu(2015)也在不使用句法分析的條件下,超越了基於樹結構的傳統模型(非深度學習模型)。

Tai等人2015年提出了Tree-LSTM模型,將序列的LSTM模型擴展到樹結構上,即可以通過LSTM的忘記門機制,跳過(忘記)整棵對結果影響不大的子樹,而不僅僅是一些可能沒有語言學意義的子序列。

此工作也被Zhou和Xu(2015)所關注,並在其論文的最后說明,如果在其模型中使用樹結構,也許會取得更好的效果。

Li等人(2015)在多個自然語言處理任務中,對序列模型(如雙向LSTM)和樹模型(如Tree-LSTM)進行了深入的對比。

Bowman等人(2015)研究結果甚至一定程度上證明,序列模型(LSTM)能夠發現隱含的樹結構。 

 

[5].Richard Socher, Cliff Lin, Andrew Y. Ng, and Christopher D. Manning. Parsing Natural Scenes and Natural Language with Recursive Neural Networks. ICML 2011.
[7].Richard Socher, Brody Huval, Christopher D. Manning and Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. EMNLP 2012.
[8].Richard Socher, Danqi Chen, Christopher D. Manning, Andrew Y. Ng. Reasoning With Neural Tensor Networks for Knowledge Base Completion. NIPS 2013.

[6].Richard Socher, John Bauer, Christopher D. Manning and Andrew Y. Ng. Parsing with Compositional Vector Grammars. ACL 2013.

[9].Kai Sheng Tai, Richard Socher and Christopher D. Manning. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. ACL 2015.
[11].Jie Zhou and Wei Xu. End-to-end learning of semantic role labeling using recurrent neural networks. ACL 2015.
[1].Samuel R. Bowman, Christopher D. Manning, and Christopher Potts. Tree-structured composition in neural networks without tree-structured architectures. arXiv manuscript 1506.04834. 2015.

 

5)《Vinyals O, Kaiser L,Koo T, et al. Grammar as a foreign language[J]. arXiv preprint arXiv:1412.7449,2014.》

把LSTM用於句法分析任務,文章把樹狀的句法結構進行了線性表示,從而把句法分析問題轉成翻譯問題,然后套用機器翻譯的seq2seq框架使用LSTM解決

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM