語音識別 -- 概述

本文轉載自查看原文 2020-11-20 11:18 607 語音識別

1. 語音合成
zhrtvc：https://github.com/KuangDD/zhrtvc

2.離線語音識別

vosk+kaldi:https://alphacephei.com/vosk/

tacotron:https://github.com/keithito/tacotron

kaldi+樹莓派交叉編譯：https://www.jianshu.com/p/4e74861b47e9

mozilla deepspeech：https://github.com/mozilla/DeepSpeech

PaddlePaddle deepspeech:https://github.com/PaddlePaddle/DeepSpeech

deepspeech2：

kaldi：https://github.com/kaldi-asr/kaldi

介紹：Kaldi是一個C++實現的語音識別工具，它使用Apache v2.0開源協議。其主要目標用戶為語音識別的研究者，由Dan Povey博士和捷克的BUT大學聯合開發。

優點：

代碼級別集成WFST：Kaldi 將 OpenFST 作為一個庫編譯進來。(而不是腳本的方式集成)。
廣泛的線性代數支持：Kaldi包括封裝了標准BLAS和LAPACK庫的矩陣庫。易於擴展。
完整的recipe：對於很多常見語音數據集都提供完整的recipe，從而可以完整的復現整個過程。

缺點：

由於貢獻者比較多，所以會有不穩定或有問題的代碼更新。
對使用者的要求較高。相比於HTK那種解釋透徹的文檔，大部分Kaldi的文檔都是給領域的專家使用的，上手較為困難。

athena：https://github.com/didi/athena https://github.com/athena-team/athena

vosk api： https://github.com/alphacep/vosk-api
傳統vs深度學習

深度學習--> 端到端

語音輸入：python -m speech_recognition

sphinx是由美國卡內基梅隆大學開發的大詞匯量、非特定人、連續英語語音識別系統。

https://zhuanlan.zhihu.com/p/37083530

SpeechRecognation：支持中文和與英文

實現; https://www.jianshu.com/p/08b9c6fc6bcb

3. 相關中文數據集

thchs30：http://www.openslr.org/

Aishell：http://www.aishelltech.com/kysjcp

　　Aishell開源178小時的中文語音語料及基本訓練腳本， 400個人講，其中訓練集340個人，測試解20個人，驗證集40個人

4、在線語音識別

科大訊飛API：

目前需求對應的語音聽寫功能免費使用；
訊飛語音國內的專業性，支持普通話，粵語，英語；
已完成demo的集成和功能測試；
網絡會成為限制（有離線的）

阿里雲
騰訊雲
百度-AI開放平台

參考：

https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/79832700?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-1.edu_weight

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 語音識別概述語音識別與 RNN-Transducer 概述 JavaScript的語音識別語音識別語音識別-TDNN Python 語音識別語音識別基礎基於android的語音識別語音識別: DeepSpeech2 樹莓派的語音識別