一 前記
通常來說遠場語音的作用距離是在1-10米之間,遠場語音識別技術主要通過麥克風陣列向聲源方位拾音。但是,在大多數的應用場景中,由於聲源附近存在電視噪、音樂噪聲、電話噪聲以及牆壁等障礙物的存在,產生了多徑反射、混響效應以及背景噪聲等加大了遠場語音信號的處理難度。尤其是說話人距離麥克風3米以上,這些干擾會明顯影響遠場麥克風的拾音效果。而且在遠距離條件下,語音信號隨距離增加幅值衰減嚴重。因此,如何對遠場語音信號進行降噪,引起了許多開發研究人員的關注。
遠場語音最早落地的應用是智能音箱,國內以阿里、百度等為代表推出了大眾化產品,國外以亞馬遜和谷歌為代表先於國內推出產品,值得一提的是亞馬遜目前在智能音箱這塊的研究做的最為完善,同時新一代的智能音箱集成有智能家居的控制HUB功能,大大拓寬了音箱的應用場景,阿里和百度目前借助國內的壟斷地位也開始在智能家居領域開始布局,宣稱在智能音箱中嵌入藍牙MESH技術,前期通過補貼方式進行市場開拓和圈地。其他應用領域目前都在早期嘗試階段,比如教育機器人、汽車語音助手、白色智能家電、智能廚電等。
隨着遠場語音應用的領域越來越廣泛,如何在遠距離條件下獲取較高質量的語音信號成為了越來越熱門的研究。作為一家AIOT方案公司,我們也一直致力於遠場語音信號的處理。我們的研究團隊不僅熟知語音增強算法、語音處理芯片等軟硬件條件;而且還在音頻處理領域有着深厚的理論基礎。在此基礎上我們不僅可以靈活地設計出效果不錯的語音增強技術方案,而且還能夠根據客戶的需求提供定制化的服務。
二 系統原理
其實,遠場拾音的應用場景十分廣泛,它廣泛應用在會議,教育,娛樂等系統上 。凡是和語音相關的產品,很多都涉及到人聲信號的提取和處理。所謂遠場語音降噪,就是能夠在人遠距離說話的情況下,周圍噪聲比較大的情況下,仍舊能夠把人的聲音信號提取出來。什么事情說起來都比較簡單,可是一旦做起來,真是不容易的,這中間涉及到的技術還真不少,下面一個圖可以簡潔的展出出來這個系統原理。
三 實現方案
該方案的實現,涉及到的技術還真不少,首先是你要選擇好一個高靈敏度低噪聲的麥克風,不要小看了這個物料,假如沒有測試過那么多麥克風,你還真不會選出特別優秀的供應商。這個行業比較亂,很多參數都是和實際測試效果對不上的。唯有經過測試對比,你才能找出最合適的那個麥克風。
其次是高采樣率的AD芯片,沒高性價比的高速AD采集芯片,采集到的 音頻不好,無論你多么牛逼的算法,也都是枉然啊。
再者就是算法了。該方案的靈魂。這里主要涉及到降噪和AGC。這些算法都需要經過長時間的參數調試的,所以說,音頻算法,沒有經過長時間的積累,是搞不定的。
最后就涉及到處理后的音頻怎么輸出的問題了。音頻一般不是一個系統的主系統,所以說,選擇什么接口輸出,都支持什么接口,這個也是非常講究的。是一個考驗技術團隊的指標。
四 效果展示
下面同樣參數的麥克風,在不同場景下錄制的數據。圖3 的場景是在家里,在距離麥克風60cm的距離一直播放高斯白噪聲的情況下錄制的;
圖4是在吵鬧的咖啡店錄制的。兩組采音是我分別站在1m、3m、5m、10m左右的位置錄制的。兩個圖中上面信道是原始聲音,下面是各種處理之后的聲音
圖 3 家庭環境下加白噪聲
圖 4 噪雜的咖啡館
五 后記
錄音識別效果可通過百度盤鏈接試聽:
鏈接:https://pan.baidu.com/s/1pCZNVdhCArVda_TuVtwtMA
提取碼:5twl