語音識別 -- 概述


1. 語音合成
zhrtvc:https://github.com/KuangDD/zhrtvc

2.離線語音識別

vosk+kaldi:https://alphacephei.com/vosk/

tacotron:https://github.com/keithito/tacotron

kaldi+樹莓派交叉編譯:https://www.jianshu.com/p/4e74861b47e9

mozilla deepspeech:https://github.com/mozilla/DeepSpeech

PaddlePaddle deepspeech:https://github.com/PaddlePaddle/DeepSpeech

deepspeech2:

 

 

 

kaldi:https://github.com/kaldi-asr/kaldi

介紹:Kaldi是一個C++實現的語音識別工具,它使用Apache v2.0開源協議。 其主要目標用戶為語音識別的研究者,由Dan Povey博士和捷克的BUT大學聯合開發。

優點:

  • 代碼級別集成WFST:Kaldi 將 OpenFST 作為一個庫編譯進來。(而不是腳本的方式集成)。
  • 廣泛的線性代數支持:Kaldi包括封裝了標准BLAS和LAPACK庫的矩陣庫。 易於擴展。
  • 完整的recipe:對於很多常見語音數據集都提供完整的recipe,從而可以完整的復現整個過程。

缺點:

  • 由於貢獻者比較多,所以會有不穩定或有問題的代碼更新。
  • 對使用者的要求較高。相比於HTK那種解釋透徹的文檔,大部分Kaldi的文檔都是給領域的專家使用的,上手較為困難。

athena:https://github.com/didi/athena   https://github.com/athena-team/athena

vosk api: https://github.com/alphacep/vosk-api
傳統vs深度學習

 

深度學習--> 端到端

 

 

 

 

語音輸入:python -m speech_recognition

sphinx是由美國卡內基梅隆大學開發的大詞匯量、非特定人、連續英語語音識別系統。

 https://zhuanlan.zhihu.com/p/37083530

 

SpeechRecognation:支持中文和與英文

實現; https://www.jianshu.com/p/08b9c6fc6bcb

 

 

3. 相關中文數據集

thchs30:http://www.openslr.org/

Aishell:http://www.aishelltech.com/kysjcp

  Aishell開源178小時的中文語音語料及基本訓練腳本, 400個人講,其中訓練集340個人,測試解20個人,驗證集40個人

 

4、 在線語音識別

  1. 科大訊飛API
  • 目前需求對應的語音聽寫功能免費使用;
  • 訊飛語音國內的專業性,支持普通話,粵語,英語;
  • 已完成demo的集成和功能測試;
  • 網絡會成為限制(有離線的)
  1. 阿里雲
  2. 騰訊雲
  3. 百度-AI開放平台

 參考:

https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/79832700?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM