注意!這個博客里給出的文件是 在matlab2012版本里使用的,而我學習時使用的時matlab2018b,因此發現了很多新版本不兼容的問題,但我沒有給出修改后能直接在新版本中用的代碼。 另外,ma ...
DTW主要是應用在孤立詞識別的算法,用來識別一些特定的指令比較好用,這個算法是基於DP 動態規划 的算法基礎上發展而來的。這里介紹語音識別就先介紹下語音識別的框架,首先我們要有一個比對的模版聲音,然后需要去截取其里面包含真正屬於語音的部分,這個要采用一個叫做vad voice activedetection 語音活動檢測的算法,而在vad中間我們最常使用雙門限端點檢測這種方法,如圖所示,我們采用v ...
2017-07-23 17:37 0 2287 推薦指數:
注意!這個博客里給出的文件是 在matlab2012版本里使用的,而我學習時使用的時matlab2018b,因此發現了很多新版本不兼容的問題,但我沒有給出修改后能直接在新版本中用的代碼。 另外,ma ...
LAS: listen, attented and spell,Google 思想: sequence to sequence的思想,模型分為encoder和dec ...
論文: Deep-FSMN for Large Vocabulary Continuous Speech Recognition 思想: 對於大詞匯量語音識別,往往需要更深的網絡結構,但是當FSMN[1]或cFSMN[2]的結構很深時容易引發剃度消失和爆炸問題 ...
論文: SPEECH-TRANSFORMER: A NO-RECURRENCE SEQUENCE-TO-SEQUENCE MODELFOR SPEECH RECOGNITION ...
論文: EESEN:END-TO-END SPEECH RECOGNITION USING DEEP RNN MODELS AND WFST-BASED DECODING ...
論文: CTC:Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks 思想: 語音識別中,一般包含語音 ...
近來在了解卷積神經網絡(CNN),后來查到CNN是受語音信號處理中時延神經網絡(TDNN)影響而發明的。本篇的大部分內容都來自關於TDNN原始文獻【1】的理解和整理。該文寫與1989年,在識別"B", "D", "G"三個濁音中得到98.5%的准確率,高於HMM的93.7%。是CNN的先驅 ...
調用科大訊飛語音聽寫,使用Python實現語音識別,將實時語音轉換為文字。 參考這篇博客實現的錄音,首先在官網下載了關於語音聽寫的SDK,然后在文件夾內新建了兩個.py文件,分別是get_audio.py和iat_demo.py,並且新建了一個存放錄音的文件夾 ...