說說python自帶的speech和speech_recognition的使用以及效果

本文轉載自查看原文 2020-07-09 14:38 4884 python/ speech/ speech_recognition/ 語音對話/ 語音識別

人工智能這么火爆的時代，近來正好有時間就想研究以下智能語音這塊的內容，雖然感覺自帶的模塊應該識別不太准確，不然就不會有百度的padder，google的tensorflow等框架，但是路要一步步走，飯也要一步步吃，初學的時候總要各種嘗試一下。以下內容是我最近兩天的嘗試結果。

環境win10，python3.7

先說說speech，這個賊簡單

pip install speech

recognize_bing(): Microsoft Bing Speech

recognize_google(): Google Web Speech API

recognize_google_cloud(): Google Cloud Speech - requires installation of the google-cloud-speech package

recognize_houndify(): Houndify by SoundHound

recognize_ibm(): IBM Speech to Text

recognize_sphinx(): CMU Sphinx - requires installing PocketSphinx

recognize_wit(): Wit.ai

目前我使用的是這個：recognize_sphinx，因為

以上七個中只有 recognition_sphinx（）可與CMU Sphinx 引擎脫機工作，其他六個都需要連接互聯網。

SpeechRecognition 附帶 Google Web Speech API 的默認 API 密鑰，可直接使用它。其他六個 API 都需要使用 API 密鑰或用戶名/密碼組合進行身份驗證，因此本文使用了 Web Speech API。

安裝之后就可以讓他說話了，在import speech的時候，會出現一些環境的配置，我這邊是win10的系統，就會出現語音識別的相關設置，按照提示操作即可。

import speech

#這邊三行是自己會說話
speech.say("小王王 你好呀")
speech.say("hello world")
speech.say("要開始啦")

#這邊是進行對話
while True:
    print(u"開始說話")
    say = speech.input()  # 接收語音
    speech.say("you said:" + say)  # 說話
    print(u"說話結束")
    if say == "你好":
        speech.say("How are you?")
    elif say == "天氣":
        speech.say("今天天氣棒棒棒!")
    elif say == "小王王":
        speech.say("小王王 棒棒棒")
    elif say == "小麗平":
        speech.say("小麗平 六六六")
    else:
        speech.say("對不起 我不知道你說什么")

運行完，以上程序，我發現它總是不知道我在說啥，於是回復我-->對不起我不知道你說什么，就一個你好回答對了，不過還是要嘗試一下。

然后我就想說可不可以自己錄一個音頻，實現識別的效果，於是發現speech_recognition這個庫，也是很簡單直接安裝一下，但是需要安裝別的包。

pip install speech_recognition -i https://mirror.baidu.com/pypi/simple

然后這個還需要pocketsphinx這個庫，於是win10安裝一直報錯，我就干脆直接下載wheel的輪子，去這個網站https://www.lfd.uci.edu/~gohlke/pythonlibs/#pocketsphinx，搜索pocketsphinx，下載對應的版本到本地即可，然后直接pip install 你下載的.wheel就可以啦

相關錄音代碼識別

# -*- coding: utf-8 -*-
import speech_recognition as sr
AUDIO_FILE = "11.wav"
r = sr.Recognizer()
with sr.AudioFile(AUDIO_FILE) as source:
    audio = r.record(source)  # read the entire audio file

res = r.recognize_sphinx(audio)
res1 = res.split(" ")
# for each in res1:
print(" ".join(res1))