論文: TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION 思想: 1)借助RNN-T在語音識別上的優勢,通過tranformer替換RNN-T中的RNN結構,實現 ...
論文: TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN T LOSS 思想: 論文作者借助RNN T的整體架構,利用transformer替換RNN結構 因為transformer是一種非循環的attention機制,所以可以並行化計算,提升計算效率 此外 ...
2020-09-16 22:48 0 2274 推薦指數:
論文: TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION 思想: 1)借助RNN-T在語音識別上的優勢,通過tranformer替換RNN-T中的RNN結構,實現 ...
注:本文為一次課程展示所用幻燈片與報告存檔。 目錄 背景 方法綜述 RNN-Transducer 發展背景 模型結構 算法實現 后記 背景 語音識別是一項可以使人與人、人與機器更加順暢地交流的技術。近年 ...
論文: Deep-FSMN for Large Vocabulary Continuous Speech Recognition 思想: 對於大詞匯量語音識別,往往需要更深的網絡結構,但是當FSMN[1]或cFSMN[2]的結構很深時容易引發剃度消失和爆炸問題 ...
論文: SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE MODELFOR SPEECH RECOGNITION 思路: 1)整體采用seq2seq的encoder和decoder架構 ...
論文: EESEN:END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING ...
論文: CTC:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks 思想: 語音識別中,一般包含語音 ...
LAS: listen, attented and spell,Google 思想: sequence to sequence的思想,模型分為encoder和decoder兩部分,首先將任意長的輸入序列通過encoder轉化為定長的特征表達,然后輸入 ...
的時序長度,在大規模語音數據訓練時提升計算效率; 2)decoder輸入采樣策略,如果訓練時 ...