文本生成相關算法總結


Seq2Seq

  2014年Google Brain團隊提出基於深度學習的Seq2Seq模型。如圖1所示,該模型在結構上主要分為兩部分:編碼器Encoder、解碼器Decoder。Encoder部分使用某一深度學習神經網絡讀取輸入關鍵字或句子,將關鍵字或句子壓縮到一個固定的維度;Decoder部分的深度學習網絡則讀取壓縮后的編碼,將其解壓為目標句子。其中Encoder和Decoder部分的深度學習網絡可以由CNN、RNN、LSTM、注意力機制等進行替換、組合。接下來對常見的深度學習算法進行介紹。

CNN

  卷積神經網絡(Convolutional Neural Networks, CNN)是一類包含卷積計算且具有深度結構的前饋神經網絡(Feedforward Neural Networks)。CNN通過卷積核從數據對象中提取特征,間隔地對特征作用池化,得到不同層次的由簡單到復雜的特征,常用於圖像任務。但通過文本的分布式向量表示,將一句話或一個詞用一個實數矩陣或向量表示后,就可以使用CNN在文本任務中進行卷積應用。

RNN

  循環神經網絡(Recurrent Neural Network, RNN)是一類用於處理序列數據的神經網絡,這里序列不只是局限於時間這一范疇,也可以拓展至文字序列。其特點是隱藏層之間的神經元是有連接的,並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。
  相關介紹鏈接:
https://www.cnblogs.com/wisteria68/p/13488819.html
https://www.cnblogs.com/wisteria68/p/13491170.html

LSTM

  長短期記憶網絡(Long Short-Term Memory networks, LSTM)是對循環神經網絡的改進。相比於RNN模型LSTM在神經細胞的設計上添加了三個“門”結構,可以讓信息有選擇性地影響循環神經網絡中每個時態的狀態。所謂的“門”結構就是一個使用sigmoid神經網絡和一個按位做乘法的操作,這兩個操作合在一起就是一個“門”結構。為了使循環神經網絡更有效地保存長期記憶,“遺忘門”、“輸入門”至關重要,它們是LSTM的核心。遺忘門的作用是讓循環神經網絡“忘記”之前沒有用的信息。在“忘記”了部分之前的狀態后,它還需要從當前的輸入補充最新的記憶。這個過程就是“輸入門”完成的。LSTM解決了一般RNN網絡存在的長期依賴問題。
  相關介紹鏈接:
https://www.cnblogs.com/wisteria68/p/13656001.html

注意力機制

  注意力機制是一種高效獲取信息的方式。一方面,它使得解碼器可在每一步主動查詢最相關的信息,暫時忽略不相關的信息;另一方面它大大縮短了信息流動的距離。在本質上可描述為:將查詢(query)和鍵-值對(key-value pairs)映射(mapping)到輸出(output);其中,查詢、鍵、值和輸出都是向量,輸出為值的加權和,分配給每個值的權重則由查詢與對應的鍵進行計算。
  對於不同深度學習算法的優缺點,使用表1進行展示。

  基於注意力機制模型的相關介紹鏈接:
https://www.cnblogs.com/wisteria68/p/13640422.html
https://www.cnblogs.com/wisteria68/p/13647917.html

總結

  在可並行化設計方面CNN與注意力機制相較於其它深度學習模型易實現;在捕捉上下文及語序信息方面RNN、LSTM具有天然的優勢,但對於捕捉長距離的上下文及語序信息時模型較復雜。CNN與注意力機制盡管在結構設計上對上下文語序的捕獲不占優勢,但也可以通過后續模型結構的改進來實現。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM