摘要:波士頓動力的機器狗,想要么?快來跟我一起動手制作吧。
波士頓動力的機器狗了解嗎?
一個會后空翻、會開門、會爬樓梯的AI。
最近,我們實驗室就來了一批mini版的機器狗,雖然不會各種高難度雜技動作,但在我們各種搗鼓下,現在特別“能說會道”。
目標:一只具備語音交互的機器狗
當前,采用API訪問雲端實現諸如語音識別、語音合成模塊功能,逐漸可以簡化或者取代一些復雜的本地資源部署,快速實現相應的功能。
但對於一些語音交互科研機器人,語音服務經常面臨本地部署設備數目少、部署成本高、維護麻煩等問題。尋求低成本、部署方便、語音合成迅速的語音交互服務模塊,成為設計語音交互機器人的關鍵瓶頸。
這次,我們對機器狗科研Demo樣機搭載語音識別ASR、自然語言處理NLP、語音合成TTS服務,從而實現准確快速的語音識別、多音色富有情感的語音合成、語音運動控制、智能提醒等功能。
針對上述要求,我們選用了華為雲的語音識別ASR、語音合成TTS以及自然語言處理NLP產品。具體實驗改造過程其實很簡單,分為三步:
- 在本地設備部署語音喚醒服務,設備語音喚醒后,將錄音片段通過華為雲的語音識別接口傳至華為雲進行語音識別處理。
- 將華為雲返回的語音識別文字信息在本地進行自然語言處理,或運用華為雲的自然語言處理模塊進行自然語言處理得到相應的語義、控制指令信息。
- 將需要語音合成的文字通過華為雲的語音合成接口傳至華為雲,得到相應的音頻信息。
圖:業務架構圖/方案截圖:
誕生!一只可對話的機器狗
最終,通過華為雲的語音識別相關產品,這只機器狗既能聽懂人話,還能和大家交流,具體可以實現以下幾個場景的語音交互。
控制指令識別:通過語音識別服務,在本地通過正則匹配,數據庫對比等操作,得到語音信息中的控制指令信息,用於機器人的語音控制。
對話語音的語音轉寫:運用語音識別服務,獲取語音信息中相應的文字信息,用於自然語言處理模塊的文本輸入,或者對話機器人API的輸入。
自然語言處理:通過華為雲的自然語言處理服務,得到相應的回復語言,用於智能對話、智能提醒等功能。
語音合成功能:運用華為雲的語音合成服務實現對答文本的語音合成服務。
雖然身形沒有波士頓動力的機器狗靈巧,但是在語音對話方面,這只機器狗或許要略勝一籌。
體驗下來,華為雲的語音識別類產品還是相當不錯的。
首先它簡化了語音交互模塊的配置,學生可以輕松通過API調用的方式實現語音識別、語音合成等服務,簡單便捷。
其次,提升了語音交互的質量。得益於華為雲低延時高速的特性,在線服務可以與本地服務媲美,語音識別准確率很高,同時語音合成提供了多種語音交互音色供開發者使用。遺憾的是,當前對長語音的識別速度需要進一步優化,而且語音合成可以考慮中英語音的合成,提升中英語音合成的情感度,銜接的自然度。
現在,華為雲的語音識別產品正在優惠中,1元就能體驗語音語義服務,一分錢不花也可以享受一天的智能對話機器人,算下來,至少能省幾大百,喜歡DIY機器人的趕緊上車。