識別結果對比: http://download.csdn.net/download/elesos/10138377
百度
REST API
格式:推薦pcm
推薦16K
編碼:16bit 位深的
單
聲道
最長支持60s的錄音文件
tts:語音合成
如果不使用raw方式,而是使用json方式:
(speech, len) 及 (url, callback) 這兩組參數必須二選一
異步的返回值
{"err_msg":"success. ","err_no":0,"sn":"396863495271511838506"}
異步的結果會返回到一個回調地址里,需要將數據存儲才能看到
這個很慢,且不穩定
搜狗的
SDK適用於Android和iOS平台
訊飛的,可以在線測試
騰訊 的
還在申請中
阿里的
提供如下三種服務:
「 一句話識別 」對一分鍾內的短語音實時識別,適用於對話聊天,控制口令等較短的語音識別場景。
「 實時語音識別 」:對長時間的語音數據流實時識別,適用於會議演講、視頻直播等長時間不間斷識別的場景。
「 錄音文件識別 」:對錄音文件中的語音做識別,需要存放到oss上,並
設置數據為私有, 非實時
oss為
私有的情況下oss地址還要包含Signature,Expires,OSSAccessKeyId三個參數
阿里雲大數據平台,簡稱數加
采樣率要求是8或16K
阿里內部進行了切分,返回的結果也是分段的,后面一段重復識別了前面一段的后15ms
總結:
百度的要求格式是16K,單聲道的pcm,而且時長不超過60s, 免費,但是有
50000次/日
的在線識別調用配額,可以申請提高配額。
測試demo(支持各種格式音頻輸入,內部會進行轉換):有需要的私信
搜狗的目前 只有
Android和iOS平台適用,未測試
訊飛的,可以在線測試
每小時9.9元
騰訊 的
還在申請中
阿里的
提供如下三種服務:
「 一句話識別 」對一分鍾內的短語音實時識別,適用於對話聊天,控制口令等較短的語音識別場景。
「 實時語音識別 」:對長時間的語音數據流實時識別,適用於會議演講、視頻直播等長時間不間斷識別的場景。
「 錄音文件識別 」:對錄音文件中的語音做識別,需要存放到oss上,並
設置數據為私有, 非實時
測試demo地址:有需要的私信