tree-lstm初探

本文轉載自查看原文 2018-12-24 11:37 4358 nlp

https://zhuanlan.zhihu.com/p/35252733

可以先看看上面知乎文章里面的例子

Socher 等人於2012和2013年分別提出了兩種區分詞或短語類型的模型，即SU-RNN（Syntactically-Untied RNN）和MV-RNN（Matrix-Vector RNN）。

1）SU-RNN對不同類型的組合節點使用不同的組合參數，如ADJ與NN組合時，使用W^ADJ-NN。

但是，相同的節點類型也未必可以共享同一套組合參數，如同樣是形容詞，“好”和“壞”與其它詞在組合時，獲得的結果應該是不同的。

2）因此，MV-RNN將這種不同體現在每個節點上，而非不同種類的節點。它認為，每個節點除了需要使用向量表示外，還需要使用一個矩陣來表示，其中向量表示節點自身的屬性，而矩陣則表示其在組合時，對另一個節點的操作。例如，“紅”與“蘋果”組合的結果是“紅蘋果”，它仍然是一種“蘋果”，只是屬性發生了一些改變，可以通過將“紅”的矩陣與“蘋果”的向量相乘獲得“紅蘋果”的向量。

然而MV-RNN對每個節點除賦予一個向量外，還需要賦予一個矩陣，其中涉及到太多的參數需要學習，所以往往學習的並不充分。

3）為了獲得更好的學習效果，Socher等人於2013年提出了RNTN（Recursive Neural Tensor Networks）模型，即使用張量（Tensor）來表示組合參數。常用的三階張量可以被理解為多個矩陣構成的向量，其中每個矩陣可以被認為是某種類型的組合操作，最終組合在一起。通過張量，既可以減少所需學習的參數，也可以表示豐富的組合操作，因此RNTN模型也取得了較好的效果。在細粒度情感分析任務上，將MV-RNN獲得的44.4%的准確率，提高到了45.7%。其中細粒度情感分類指的是將句子所表達的情感，如褒貶等划分為5個級別，對應的是評論網站對商品打分的星級。

Socher等人以上一系列的工作都充分利用了自然語言樹結構的特性，因此事先需要對輸入的文本進行句法分析操作，然而由於句法分析自身並不完美，其個別錯誤的分析結果必然對上述模型的應用帶來不良的效果。

所以有一些學者，試圖將模型構築在非樹結構之上，並取得了非常好的結果。

4）如Le and Mikolov於2014年提出了Paragraph Vector模型，將著名的word2vec模型擴展到更長的文本之上，並在相同的情感分類任務上，將准確率進一步提高到48.7%。Kim於同年使用了更簡單的單層CNN（Convolutional Neural Networks）模型，在Dropout等技術的幫助下，也獲得了48.0%的准確率。在其它自然語言處理任務上，Zeng等人（2014）以及Zhou和Xu（2015）也在不使用句法分析的條件下，超越了基於樹結構的傳統模型（非深度學習模型）。

以上的工作是否就證明了，面向自然語言處理的深度學習模型真的不需要樹結構了呢？結論並沒有那么簡單，基於樹結構的模型也在不斷的發展

5）Tai等人2015年提出了Tree-LSTM模型，將序列的LSTM模型擴展到樹結構上，即可以通過LSTM的忘記門機制，跳過（忘記）整棵對結果影響不大的子樹，而不僅僅是一些可能沒有語言學意義的子序列。由於有了樹結構的幫助，就更容易對長距離節點之間的語義搭配關系進行學習，從而取得了更好的准確率（50.6%）。此工作也被Zhou和Xu（2015）所關注，並在其論文的最后說明，如果在其模型中使用樹結構，也許會取得更好的效果。當然，是否會如其所願還需要進一步的研究。

其中需要說明的是，在細粒度情感分類任務中，Li等提出可以使用標點符號這一簡單的特征，將句子分割成小的片段，然后構建層次化Bi-LSTM模型，即對每個小片段使用Bi-LSTM建模，獲得其表示。然后再使用一個Bi-LSTM模型將各個小片段的表示統一建模，獲得整個句子的表示。經過這種簡單的操作，一定程度上提高了序列模型的性能，使其又超過了樹結構模型的性能。

可以參考的論文：

Socher 等人於2012和2013年分別提出了兩種區分詞或短語類型的模型，即SU-RNN（Syntactically-Untied RNN）和MV-RNN（Matrix-Vector RNN）。

Socher等人於2013年提出了RNTN（Recursive Neural Tensor Networks）模型，即使用張量（Tensor）來表示組合參數。

Le and Mikolov於2014年提出了Paragraph Vector模型，將著名的word2vec模型擴展到更長的文本之上，並在相同的情感分類任務上，將准確率進一步提高到48.7%。

Kim於2014年使用了更簡單的單層CNN（Convolutional Neural Networks）模型，在Dropout等技術的幫助下，也獲得了48.0%的准確率。

在其它自然語言處理任務上，Zeng等人（2014）以及Zhou和Xu（2015）也在不使用句法分析的條件下，超越了基於樹結構的傳統模型（非深度學習模型）。

Tai等人2015年提出了Tree-LSTM模型，將序列的LSTM模型擴展到樹結構上，即可以通過LSTM的忘記門機制，跳過（忘記）整棵對結果影響不大的子樹，而不僅僅是一些可能沒有語言學意義的子序列。

此工作也被Zhou和Xu（2015）所關注，並在其論文的最后說明，如果在其模型中使用樹結構，也許會取得更好的效果。

Li等人（2015）在多個自然語言處理任務中，對序列模型（如雙向LSTM）和樹模型（如Tree-LSTM）進行了深入的對比。

Bowman等人（2015）研究結果甚至一定程度上證明，序列模型（LSTM）能夠發現隱含的樹結構。

[5].Richard Socher, Cliff Lin, Andrew Y. Ng, and Christopher D. Manning. Parsing Natural Scenes and Natural Language with Recursive Neural Networks. ICML 2011.
[7].Richard Socher, Brody Huval, Christopher D. Manning and Andrew Y. Ng. Semantic Compositionality through Recursive Matrix-Vector Spaces. EMNLP 2012.
[8].Richard Socher, Danqi Chen, Christopher D. Manning, Andrew Y. Ng. Reasoning With Neural Tensor Networks for Knowledge Base Completion. NIPS 2013.

[6].Richard Socher, John Bauer, Christopher D. Manning and Andrew Y. Ng. Parsing with Compositional Vector Grammars. ACL 2013.

[9].Kai Sheng Tai, Richard Socher and Christopher D. Manning. Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks. ACL 2015.
[11].Jie Zhou and Wei Xu. End-to-end learning of semantic role labeling using recurrent neural networks. ACL 2015.
[1].Samuel R. Bowman, Christopher D. Manning, and Christopher Potts. Tree-structured composition in neural networks without tree-structured architectures. arXiv manuscript 1506.04834. 2015.

5）《Vinyals O, Kaiser L,Koo T, et al. Grammar as a foreign language[J]. arXiv preprint arXiv:1412.7449,2014.》

把LSTM用於句法分析任務，文章把樹狀的句法結構進行了線性表示，從而把句法分析問題轉成翻譯問題，然后套用機器翻譯的seq2seq框架使用LSTM解決

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 詳解 LSTM lstm與bilstm LSTM與BiLSTM RNN和LSTM 詳解LSTM 雙向LSTM Tensorflow[LSTM] LSTM入門學習——結合《LSTM模型》文章看 RNN & LSTM詳解 LSTM簡單入門