神經網絡中end-to-end training和end-to-end models的區別


轉自:https://blog.csdn.net/program_developer/article/details/77887478

 

學習神經網絡的時候,常常看到論文里說,這個網絡模型是end-to-end trainable,end-to-end trainable是指什么樣子的網絡?不是很理解,所有在網上查找很多資料,來整理一下!

傳統的語音識別系統,是由許多個模塊組成的,包括聲學模型、發音詞典、語言模型。其中聲學模型和語言模型是需要訓練的。這些模塊的訓練一般都是獨立進行的,各有各的目標函數,比如聲學模型的訓練目標是最大化訓練語音的概率,語言模型的訓練目標是最小化 perplexity。由於各個模塊在訓練時不能互相取長補短,訓練的目標函數又與系統整體的性能指標(一般是詞錯誤率 WER)有偏差,這樣訓練出的網絡往往達不到最優性能。

針對這個問題,一般有兩種解決方案:

端到端訓練(end-to-end training):一般指的是在訓練好語言模型后,將聲學模型和語言模型接在一起,以 WER 或它的一種近似為目標函數去訓練聲學模型。由於訓練聲學模型時要計算系統整體的輸出,所以稱為「端到端」訓練。可以看出這種方法並沒有徹底解決問題,因為語言模型還是獨立訓練的。

端到端模型(end-to-end models):系統中不再有獨立的聲學模型、發音詞典、語言模型等模塊,而是從輸入端(語音波形或特征序列)到輸出端(單詞或字符序列)直接用一個神經網絡相連,讓這個神經網絡來承擔原先所有模塊的功能。典型的代表如使用 CTC 的 EESEN [1]、使用注意力機制的 Listen, Attend and Spell [2]。這種模型非常簡潔,但靈活性就差一些:一般來說用於訓練語言模型的文本數據比較容易大量獲取,但不與語音配對的文本數據無法用於訓練端到端的模型。因此,端到端模型也常常再外接一個語言模型,用於在解碼時調整候選輸出的排名(rescoring),如 [1]。

「輸入是語音波形(raw waveform)」並不是端到端模型的本質特征,端到端模型的輸入也可以是特征序列(MFCC 等)。端到端模型的本質特征是把聲學模型、發音詞典、語言模型這些傳統模塊融合在一起。

end to end 的好處:通過縮減人工預處理和后續處理,盡可能使模型從原始輸入到最終輸出,給模型更多可以根據數據自動調節的空間,增加模型的整體契合度。

參考文章:https://www.zhihu.com/question/51435499
---------------------
作者:Microstrong0305
來源:CSDN
原文:https://blog.csdn.net/program_developer/article/details/77887478
版權聲明:本文為博主原創文章,轉載請附上博文鏈接!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM