近來在了解卷積神經網絡(CNN),后來查到CNN是受語音信號處理中時延神經網絡(TDNN)影響而發明的。本篇的大部分內容都來自關於TDNN原始文獻【1】的理解和整理。該文寫與1989年,在識別"B", "D", "G"三個濁音中得到98.5%的准確率,高於HMM的93.7%。是CNN的先驅 ...
論文: A time delay neural network architecture for efficient modeling of longtemporal contexts 思想: 對TDNN的優化改進,利用SVD將參數矩陣分解為兩個更小的矩陣相乘的形勢,從而減少層參數,以便利用更深的網絡提取表達能力更強的特征 並且要求其中一個矩陣半正定化,使得參數矩陣隨機初始化時訓練不至於發散 此 ...
2020-09-16 23:21 0 1843 推薦指數:
近來在了解卷積神經網絡(CNN),后來查到CNN是受語音信號處理中時延神經網絡(TDNN)影響而發明的。本篇的大部分內容都來自關於TDNN原始文獻【1】的理解和整理。該文寫與1989年,在識別"B", "D", "G"三個濁音中得到98.5%的准確率,高於HMM的93.7%。是CNN的先驅 ...
LAS: listen, attented and spell,Google 思想: sequence to sequence的思想,模型分為encoder和dec ...
論文: Deep-FSMN for Large Vocabulary Continuous Speech Recognition 思想: 對於大詞匯量語音識別,往往需要更深的網絡結構,但是當FSMN[1]或cFSMN[2]的結構很深時容易引發剃度消失和爆炸問題 ...
論文: SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE MODELFOR SPEECH RECOGNITION ...
論文: EESEN:END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING ...
論文: CTC:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks 思想: 語音識別中,一般包含語音 ...
論文 Povey, D., Cheng, G., Wang, Y., Li, K., Xu, H., Yarmohamadi, M., & Khudanpur, S. (2018). Sem ...
的時序長度,在大規模語音數據訓練時提升計算效率; 2)decoder輸入采樣策略,如果訓練時 ...