原文:【筆記】DLHLP - 李宏毅 - 4 - 語音識別 - Part 3 CTC, RNN-T and more

Connectionist Temporal Classification CTC CTC可以用於線上實時地語音識別,編碼器用的是單向的RNN,解碼是用MLP來預測文字分布。 編碼器將語音輸入 x i 編碼成 h i ,MLP再對它乘上一個權重,接上Softmax,得到詞表V大小的概率分布。 但有時候當前的語音輸入可能並不能對應實際的文本token,所以預測要額外多一個為空的類別,表示模型不知道要 ...

2020-07-08 15:28 0 656 推薦指數:

查看詳情

筆記DLHLP - - 3 - 語音識別 - Part 2 LAS

語音識別模型: 語音識別模型主要分為兩種,一種是基於seq2seq的,一種是基於HMM的。 seq2seq的模型主要有LAS,CTCRNN-T,Neural Transducer,MoChA。 本節講最流行的LAS,就是Listen,Atten,and Spell,典型 ...

Tue Jul 07 04:14:00 CST 2020 0 694
語音識別:從 WaveNet 到 Tacotron,再到 RNN-T

從 WaveNet 到 Tacotron,再到 RNN-T 谷歌再獲語音識別新進展:利用序列轉導來實現多人語音識別和說話人分類 雷鋒網 AI 科技評論按:從 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在語音人工智能技術的最前沿。近日,他們又將多人語音識別和說話人分類問題 ...

Wed Aug 28 21:18:00 CST 2019 0 527
筆記DLHLP - - 1 - Introduction - 人類語言處理介紹

課程名稱:深度學習與人類語言處理(Deep Learning for Human Language Processing) (自然語言包括文本和語音兩種形式,不過自然語言處理大多時候指的是文本處理,所以這門課的名字叫人類語言處理以便區分,因為這門課語音和文本的內容是1:1的) 人類語言處理 ...

Mon Jul 06 19:10:00 CST 2020 0 756
基於RNNCTC語音識別模型,探索語境偏移解決之道

摘要:在本文介紹的工作中,我們展示了一個基於RNNCTC語音識別模型,在這個模型中,基於WFST的解碼能夠有效地融合詞典和語言模型. 本文分享自華為雲社區《語境偏移如何解決?專有領域端到端ASR之路(三)》,原文作者:xiaoye0829 。 這篇文章我們介紹一個結合CTC與WFST ...

Tue Jul 20 18:02:00 CST 2021 0 202
GRU-CTC中文語音識別

目錄 基於keras的中文語音識別 音頻文件特征提取 文本數據處理 數據格式處理 構建模型 模型訓練及解碼 aishell數據轉化 該項目github地址 基於keras的中文語音識別 該項目實現了GRU-CTC中文語音識別 ...

Fri Aug 24 07:19:00 CST 2018 0 2764
構建CTC語音識別解碼網絡

  本文介紹 kaldi-ctc 構建 CTC[1, 2, 3, 4] 語音識別加權有限狀態機(WFST)解碼網絡的方式。   示例相關資源 lifeiteng/codingmath/CTC-decoding-graph   構建語言模型   以 單句 “how are you ...

Sat Mar 04 06:22:00 CST 2017 0 3433
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM