第三篇：ASR（Automatic Speech Recognition）語音識別

本文轉載自查看原文 2019-07-16 21:33 804 百度AI學習

ASR（Automatic Speech Recognition）語音識別：

　　　　　　https://ai.baidu.com/docs#/ASR-Online-Python-SDK/top

　　　　第三方模塊：pip install baidu-aip　　

　　ASR_test.py

 1 from aip import AipSpeech
 2 import os
 3 
 4 """ 你的 APPID AK SK """
 5 APP_ID = '16815394'
 6 API_KEY = 'jM4b8GIG9gzrzySTRq3szK2E'
 7 SECRET_KEY = 'iE626cEpjT1iAVwh24XV5h1QFuR8FPD2'
 8 
 9 client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
10 
11 
12 # 讀取文件
13 def get_file_content(filePath):
14 
15     #文件格式轉換成pcm(前提是需要安裝ffmpeg軟件並配置環境變量)
16     pcm_filePath = filePath.split('.')[0] + '.pcm'
17     cmd_str=f'ffmpeg -y  -i {filePath}  -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {pcm_filePath}'
18     os.system(cmd_str)#調用os.system()在CMD執行命令
19     filePath=pcm_filePath
20 
21     with open(filePath, 'rb') as fp:
22         return fp.read()
23 
24 
25 # 識別本地文件
26 result=client.asr(get_file_content('1.m4a'), 'pcm', 16000, {
27     'dev_pid': 1536,
28 })
29 text=result.get('result')[0]
30 
31 print(result)
32 
33 print(text)
34 
35 '''
36 asr函數需要四個參數,第四個參數可以忽略,自有默認值,參照一下這些參數是做什么的
37 
38 第一個參數: speech 音頻文件流 建立包含語音內容的Buffer對象, 語音文件的格式，pcm 或者 wav 或者 amr。(雖說支持這么多格式,但是只有pcm的支持是最好的)
39 
40 第二個參數: format 文件的格式,包括pcm（不壓縮）、wav、amr (雖說支持這么多格式,但是只有pcm的支持是最好的)
41 
42 第三個參數: rate 音頻文件采樣率 如果使用剛剛的FFmpeg的命令轉換的,你的pcm文件就是16000
43 
44 第四個參數: dev_pid 音頻文件語言id 默認1537（普通話 輸入法模型）
45 '''

　　原始語音文件通過windows10自帶的<錄音機>進行錄制等，轉換成語音識別推薦格式pcm，最后識別輸出文字

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 ASR（Automatic Speech Recognition）語音識別測試測試流程 Python 處理 ASR（語音識別） python之語音識別（speech模塊）語音識別（Web Speech API） IBM Cloud Speech to Text 語音識別 QT中使用微軟Speech API實現語音識別 python深度學習之語音識別(speech recognize) [NLP-ASR] 語音識別項目整理(一) 音頻預處理智能電話機器人，使用Microsoft語音識別技術（Speech sdk）(下) Android第三方服務(1):語音識別(1)