1. 語音合成
zhrtvc:https://github.com/KuangDD/zhrtvc
2.離線語音識別
vosk+kaldi:https://alphacephei.com/vosk/
tacotron:https://github.com/keithito/tacotron
kaldi+樹莓派交叉編譯:https://www.jianshu.com/p/4e74861b47e9
mozilla deepspeech:https://github.com/mozilla/DeepSpeech
PaddlePaddle deepspeech:https://github.com/PaddlePaddle/DeepSpeech
deepspeech2:
kaldi:https://github.com/kaldi-asr/kaldi
介紹:Kaldi是一個C++實現的語音識別工具,它使用Apache v2.0開源協議。 其主要目標用戶為語音識別的研究者,由Dan Povey博士和捷克的BUT大學聯合開發。
優點:
- 代碼級別集成WFST:Kaldi 將 OpenFST 作為一個庫編譯進來。(而不是腳本的方式集成)。
- 廣泛的線性代數支持:Kaldi包括封裝了標准BLAS和LAPACK庫的矩陣庫。 易於擴展。
- 完整的recipe:對於很多常見語音數據集都提供完整的recipe,從而可以完整的復現整個過程。
缺點:
- 由於貢獻者比較多,所以會有不穩定或有問題的代碼更新。
- 對使用者的要求較高。相比於HTK那種解釋透徹的文檔,大部分Kaldi的文檔都是給領域的專家使用的,上手較為困難。
athena:https://github.com/didi/athena https://github.com/athena-team/athena
vosk api: https://github.com/alphacep/vosk-api
傳統vs深度學習
深度學習--> 端到端
sphinx是由美國卡內基梅隆大學開發的大詞匯量、非特定人、連續英語語音識別系統。
https://zhuanlan.zhihu.com/p/37083530
SpeechRecognation:支持中文和與英文
實現;
3. 相關中文數據集
thchs30:http://www.openslr.org/
Aishell:http://www.aishelltech.com/kysjcp
Aishell開源178小時的中文語音語料及基本訓練腳本, 400個人講,其中訓練集340個人,測試解20個人,驗證集40個人
4、 在線語音識別
- 科大訊飛API:
- 目前需求對應的語音聽寫功能免費使用;
- 訊飛語音國內的專業性,支持普通話,粵語,英語;
- 已完成demo的集成和功能測試;
- 網絡會成為限制(有離線的)
- 阿里雲
- 騰訊雲
- 百度-AI開放平台
參考:
https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/79832700?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight