原文:語音識別與 RNN-Transducer 概述

注:本文為一次課程展示所用幻燈片與報告存檔。 目錄 背景 方法綜述 RNN Transducer 發展背景 模型結構 算法實現 后記 背景 語音識別是一項可以使人與人 人與機器更加順暢地交流的技術。近年來,語音識別相關的若干技術場景以及逐漸地改變了我們的工作和生活方式,如語音輸入法 語音消息 轉文本 語音到語音翻譯系統 檢索語音信息等。同時,語音識別也能夠極大地提升人機交流地能力,包括語音搜索 個 ...

2021-10-19 10:55 0 256 推薦指數:

查看詳情

語音識別 -- 概述

1. 語音合成zhrtvc:https://github.com/KuangDD/zhrtvc 2.離線語音識別 vosk+kaldi:https://alphacephei.com/vosk/ tacotron:https://github.com/keithito/tacotron ...

Fri Nov 20 19:18:00 CST 2020 0 607
語音識別概述

后驗概率最大,即為判別結果 HTK Hvite解碼器 Sphinx解碼器 TODE解碼器,生硬,修改繁瑣。 WFST 擴充,簡單高效。 有限狀態機模型被用於大詞匯量連續中文語音識別系統中。 其操作思路是將傳統語音識別系統中的數學模型,分別轉換成有限狀態機模型,再將轉換后的模型 ...

Thu Sep 07 23:40:00 CST 2017 0 2021
語音識別算法閱讀之transformer-transducer(facebook)

論文:   TRANSFORMER-TRANSDUCER:END-TO-END SPEECH RECOGNITION WITH SELF-ATTENTION 思想:   1)借助RNN-T在語音識別上的優勢,通過tranformer替換RNN-T中的RNN結構,實現 ...

Thu Sep 17 06:58:00 CST 2020 0 1449
語音識別算法閱讀之RNN-T-2018

論文:   EXPLORING ARCHITECTURES, DATA AND UNITS FOR STREAMING END-TO-END SPEECH RECOGNITION WITH RNN-TRANSDUCER,2018 CTC的一個問題在於,其假設當前幀的輸出與歷史輸出之間的條件 ...

Wed Sep 16 06:26:00 CST 2020 0 2315
語音識別:從 WaveNet 到 Tacotron,再到 RNN-T

從 WaveNet 到 Tacotron,再到 RNN-T 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類 雷鋒網 AI 科技評論按:從 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在語音人工智能技術的最前沿。近日,他們又將多人語音識別和說話人分類問題 ...

Wed Aug 28 21:18:00 CST 2019 0 527
語音識別-TDNN

近來在了解卷積神經網絡(CNN),后來查到CNN是受語音信號處理中時延神經網絡(TDNN)影響而發明的。本篇的大部分內容都來自關於TDNN原始文獻【1】的理解和整理。該文寫與1989年,在識別"B", "D", "G"三個濁音中得到98.5%的准確率,高於HMM的93.7%。是CNN的先驅 ...

Mon Jan 14 01:11:00 CST 2019 0 1274
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM