Python人工智能第一篇：語音合成和語音識別

本文轉載自查看原文 2019-09-28 17:45 1427 Python人工智能/ Python之人工智能

Python人工智能第一篇：語音合成和語音識別

此篇是人工智能應用的重點,只用現成的技術不做底層算法,也是讓初級程序員快速進入人工智能行業的捷徑。目前市面上主流的AI技術提供公司有很多,比如百度,阿里,騰訊,主做語音的科大訊飛,做只能問答的圖靈機器人等等。這些公司投入了很大一部分財力物力人力將底層封裝,提供應用接口給我們,尤其是百度,完全免費的接口。既然百度這么仗義,咱們就不要浪費掉怎么好的資源,從百度AI入手,開啟人工智能之旅

開啟人工智能技術的大門 : http://ai.baidu.com/

首先進入控制台,注冊一個百度的賬號(百度賬號通用)；打開百度語音,進入語音應用管理界面

創建一個新的應用；

創建語音應用App

就可以創建應用了,回到應用列表我們可以看到已創建的應用了

這里面有三個值 AppID , API Key , Secret Key 記住可以從這里面看到 , 在之后的學習中我們會用到

好了百度語音的應用已經創建完成了接下來我會用Python 代碼作為實例進行應用及講解

一.安裝百度的人工智能SDK:

首先咱們要 pip install baidu-aip 安裝一個百度人工智能開放平台的Python SDK實在是太方便了,這也是為什么我們選擇百度人工智能的最大原因

安裝完成之后就來測試一下:

baidu-aip Python SDK 語音合成技術文檔 : https://ai.baidu.com/docs#/TTS-Online-Python-SDK/top;我們可以選擇Python SDK

語音合成

# -*- coding: utf-8 -*-
# @Time    : 2019/9/28 11:01
# @Author  : AnWen
from aip import AipSpeech

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

# 詳細參數可看python sdk 文檔
result = client.synthesis('你好百度', 'zh', 1, {
	'vol': 5,	#音量，取值0-15，默認為5中音量
	'per': 3,	#發音人選擇, 0為女聲，1為男聲，3為情感合成-度逍遙，4為情感合成-度丫丫，默認為普通女	
	'spd': 7,   #語速，取值0-15，默認為5中語速
})

# 識別正確返回語音二進制 錯誤則返回dict 參照下面錯誤碼
if not isinstance(result, dict):
	with open('audio.mp3', 'wb') as f:
		f.write(result)
# 在工程目錄下,就可以看到 audio.mp3 這個文件了,來聽一聽

語音識別

百度的SDK識別咱們的音頻文件,就要想辦法轉變成百度SDK可以識別的格式PCM，

可以實現自動化轉換格式並且屢試不爽的工具 : FFmpeg 這個工具的下載地址是 : 鏈接：https://pan.baidu.com/s/1jonSAa_TG2XuaJEy3iTmHg 密碼：w6hk

FFmpeg 環境變量配置:

首先你要解壓縮,然后找到bin目錄,我的目錄是 C:\ffmpeg\bin

嘗試一下,是否配置成功：cmd 執行：ffmpeg

看到這個界面就算配置成功了,配置成功有什么用呢, 這個工具可以將wav wma mp3 等音頻文件轉換為 pcm 無壓縮音頻文件

然后我們用命令行對這個 audio.wav 進行pcm格式的轉換然后得到 audio.pcm

命令是 : ffmpeg -y -i audio.wav -acodec pcm_s16le -f s16le -ac 1 -ar 16000 audio.pcm

百度語音識別SDK的應用:

import os

from aip import AipSpeech

""" 你的 APPID AK SK """
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'

client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)

# 讀取文件
def get_file_content(filePath):
	os.system(f"ffmpeg -y  -i {filePath} -acodec pcm_s16le -f s16le -ac 1 -ar 16000 {filePath}.pcm")
	with open(f"{filePath}.pcm", 'rb') as fp:
		return fp.read()

# 識別本地文件
#asr函數需要四個參數,第四個參數可以忽略,自有默認值,參照一下這些參數是做什么的
#第一個參數: speech 音頻文件流 建立包含語音內容的Buffer對象, 語音文件的格式，pcm 或者 wav 或者 amr。(雖說支持這么多格式,但是只有pcm的支持是最好的)
#第二個參數: format 文件的格式,包括pcm（不壓縮）、wav、amr (雖說支持這么多格式,但是只有pcm的支持是最好的)
#第三個參數: rate 音頻文件采樣率 如果使用剛剛的FFmpeg的命令轉換的,你的pcm文件就是16000
#第四個參數: dev_pid 音頻文件語言id 默認1537（普通話 輸入法模型）
res = client.asr(get_file_content('jttqhbc.m4a'), 'pcm', 16000, {
	'dev_pid': 1536,
})
print(res.get("result")[0])

如果err_no不是0的話,就參照一下錯誤碼表

到此百度AI語音部分的調用就結束了,是不是感覺很簡單

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python實現人工智能之路--語音識別加語音合成人工智能 - 語音合成,語音識別,語音聊天機器人人工智能API調用 - 實現語音合成,語音識別,語音聊天機器人 Python實現語音識別和語音合成 Python實現語音識別和語音合成 Python實現語音識別和語音合成人工智能語音識別系統開發人工智能-baidu-aip語音合成(文字轉語音) 百度AI的語音合成,語音識別人工智能 - 基於火狐瀏覽器的語音識別,語音自動回復