語音識別中喚醒技術調研


上篇博客(語音識別傳統方法(GMM+HMM+NGRAM)概述)說到我們team要做語音識別相關的項目,而我們公司的芯片是用在終端上的,即我們要做終端上的語音識別。由於目前終端(如手機)上的CPU還不足夠強勁,不能讓語音識別的各種算法跑在終端上,尤其現在語音識別都是基於深度學習來做了,更加不能跑在終端上,所以目前主流的語音識別方案是聲音采集和前處理在終端上做,語音識別算法則放在服務器(即雲端)上跑。雖然這種方案有泄漏隱私(把終端上的語音數據發給服務器)和沒有網絡不能使用等缺點,但也是不得已而為之的,相信在不久的將來等終端上的CPU足夠強勁了會把語音識別的所有實現都放在終端上的。

 

是不是意味着終端上做不了語音識別相關的算法了?其實也不是,語音喚醒功能是需要在終端上實現的。語音喚醒是指設定一個喚醒詞,如Siri的“Hi Siri”,只有用戶說了喚醒詞后終端上的語音識別功能才會處於工作狀態,否則處於休眠狀態。這樣做主要是為了降功耗,增加續航時間。目前很多終端都是靠電池供電的,對功耗很敏感,是不允許讓語音識別功能一直處於工作狀態的。為此我就對語音喚醒技術做了一番調研。依舊是看各種文檔和博客,然后進行梳理和總結,形成PPT,給組內同學介紹。在此我也把PPT貼出來,給有需要或感興趣的朋友看看,有什么不正確的也請指正。我的PPT中的一些圖是用的文檔或他人博客里的,謝謝這些原作者。以下就是我的關於語音喚醒技術的PPT。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM