1. 語音合成zhrtvc:https://github.com/KuangDD/zhrtvc 2.離線語音識別 vosk+kaldi:https://alphacephei.com/vosk/ tacotron:https://github.com/keithito/tacotron ...
注:本文為一次課程展示所用幻燈片與報告存檔。 目錄 背景 方法綜述 RNN Transducer 發展背景 模型結構 算法實現 后記 背景 語音識別是一項可以使人與人 人與機器更加順暢地交流的技術。近年來,語音識別相關的若干技術場景以及逐漸地改變了我們的工作和生活方式,如語音輸入法 語音消息 轉文本 語音到語音翻譯系統 檢索語音信息等。同時,語音識別也能夠極大地提升人機交流地能力,包括語音搜索 個 ...
2021-10-19 10:55 0 256 推薦指數:
1. 語音合成zhrtvc:https://github.com/KuangDD/zhrtvc 2.離線語音識別 vosk+kaldi:https://alphacephei.com/vosk/ tacotron:https://github.com/keithito/tacotron ...
后驗概率最大,即為判別結果 HTK Hvite解碼器 Sphinx解碼器 TODE解碼器,生硬,修改繁瑣。 WFST 擴充,簡單高效。 有限狀態機模型被用於大詞匯量連續中文語音識別系統中。 其操作思路是將傳統語音識別系統中的數學模型,分別轉換成有限狀態機模型,再將轉換后的模型 ...
論文: TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION 思想: 1)借助RNN-T在語音識別上的優勢,通過tranformer替換RNN-T中的RNN結構,實現 ...
論文: TRANSFORMER TRANSDUCER: A STREAMABLE SPEECH RECOGNITION MODELWITH TRANSFORMER ENCODERS AND RNN-T LOSS 思想: 論文作者借助RNN-T的整體架構,利用 ...
: 思想: CTC對於當前時刻的輸出只與當前時刻輸入有關p(k|t),而RNN-T引 ...
論文: EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-TRANSDUCER,2018 CTC的一個問題在於,其假設當前幀的輸出與歷史輸出之間的條件 ...
從 WaveNet 到 Tacotron,再到 RNN-T 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類 雷鋒網 AI 科技評論按:從 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在語音人工智能技術的最前沿。近日,他們又將多人語音識別和說話人分類問題 ...
近來在了解卷積神經網絡(CNN),后來查到CNN是受語音信號處理中時延神經網絡(TDNN)影響而發明的。本篇的大部分內容都來自關於TDNN原始文獻【1】的理解和整理。該文寫與1989年,在識別"B", "D", "G"三個濁音中得到98.5%的准確率,高於HMM的93.7%。是CNN的先驅 ...