波束形成論文翻譯:2003_Analysis of Two-Channel Generalized Sidelobe Canceller (GSC) With Post-Filtering


題目:帶后置濾波的雙通道廣義旁瓣相消器(GSC)的分析

代碼地址:https://github.com/XiaoxiangGao/Dual_Channel_Beamformer_and_Postfilter

博客作者:凌逆戰

博客地址:https://www.cnblogs.com/LXP-Never/p/12071748.html


摘要

本文分析了非平穩噪聲環境下帶有后置濾波的雙通道廣義旁瓣相消器。后置濾波包括:檢測 波束形成器的輸出參考信號處的瞬變,比較他們的瞬變功率,估計信號存在概率,估計噪聲頻譜以及頻譜增強,以使他們對數譜的均方誤差最小化。基於局部非平穩性的測量方法來檢測瞬態信號,並根據瞬態波束參考比將其分為期望和干擾兩類。我們引入了transient discrimination quality(瞬態鑒別質量)度量,該度量量化了波束形成器識別噪聲瞬態信號和信號瞬態信號的能力。在各種噪聲場中對這一測量方法的評價表明,期望和干擾瞬態通常可以在大范圍的頻率范圍內加以區分。為了進一步提高信號寬帶情況下的低頻和高頻瞬態降噪效果,我們對每一幀信號存在的全局可能性進行了估計。全局似然與頻率中的瞬態波束參考比相關,瞬態鑒別質量高。實驗結果證明了該方法在各種汽車環境下的有效性。

關鍵詞:聲學噪聲測量,自適應信號處理,陣列信號處理,信號檢測,頻譜分析,語音增強

1  引言

  在混響和噪聲環境中,多通道系統用於對來自非期望方向的干擾信號進行空間濾波[1]。在非相干或擴散噪聲場的情況下,僅僅波束成形不能提供足夠的噪聲抑制,通常需要進行后置濾波[2]-[3]。Zelinski[4],[5]提出了基於Wiener濾波和傳感器信號自譜和互譜密度的后置濾波方法。由於噪聲功率密度被高估,Simmer和wasiljeff[6]提出了一種改進方案,它采用波束形成器輸出的功率譜密度,而不是單個傳感器信號功率譜密度的平均值。基本假設是不同傳感器的噪聲分量相互不相關的。

擴散噪聲場:非相干噪聲場在空間上是白色的,即在任何不同的空間位置處測得的噪聲信號都是不相關的。 在擴散噪聲場中,等功率的噪聲同時在所有方向上傳播,並且在任意兩個點處測量的噪聲信號之間的相干性是傳感器之間距離的函數。

  考慮到相干噪聲成分的存在,Fischer等人 [7] [9]提出了一種基於廣義旁瓣消除器(GSC)的降噪系統。 GSC抑制了相干噪聲分量,而在目標方向上設計了一個維納濾波器抑制非相干噪聲分量。Bitzer等人的研究表明,在擴散噪聲場中,無論是GSC還是自適應后置濾波在低頻下均不能很好地工作[10]-[11]。因此,在具有標准維納后置濾波的GSC的輸出中,他們使用了第二個后置濾波器來減少與空間相關的噪聲分量[12]-[13]。 Meyer和Simmer [14]將高頻帶的維納濾波與低頻帶的頻譜減法相結合。維納濾波用於抑制空間低相干噪聲分量,而頻譜減法用於降低空間高相干噪聲。

相干噪聲:相干噪聲場是方向性的。 在任意兩個點處測得的噪聲信號高度相關

  Fischer和Kammeyer提出了一種幾乎與噪聲場相關特性無關的降噪系統[15]。維納濾波應用於寬帶波束形成器的輸出,寬帶波束形成器由幾個諧波嵌套的子陣列組成。 Marro等人進一步分析了這種結構。McCowan等人 [2]使用了近場超定向波束成形技術,並研究了維納后置濾波器對語音識別性能的影響[16]。他們表明,在近場源和擴散噪聲條件下,與傳統的自適應波束形成器相比,可以提高識別性能。文獻[3]提出了對Wiener多通道后置濾波的理論分析。 Gannot等人 [17]研究了將源信號與傳感器聯系起來的一般傳遞函數的問題。他們將GSC解決方案應用於一般的傳遞函數情況,並提出了一種增強 被平穩噪聲破壞的任意非平穩信號 的算法。為了提高在擴散噪聲場和低頻段的降噪性能,他們對波束形成器的輸出進行了單輸入單輸出(SISO)后置濾波。然而,SISO后置濾波方法缺乏衰減高度非平穩噪聲成分的能力,因為這些成分與期望的信號成分沒有區別。

  最近,我們引入了一種多通道后置濾波方法,用於最小化 非平穩噪聲環境中的對數譜振幅失真[18]-[19]。 用波束形成器輸出的暫態功率與參考噪聲信號的暫態功率的比值用於指示這種瞬態是期望的還是干擾的。我們證明,與SISO后置濾波相比,可以顯著降低的非平穩噪聲,而不會進一步失真所需的信號分量。

  在本文中,我們分析了非平穩噪聲環境中的后置濾波雙通道GSC。我們使用瞬態鑒別質量度量來量化波束形成器識別干擾瞬態和源瞬態的能力。這項測量在各種噪聲場中進行了評估,結果表明期望和干擾瞬態通常可以在大范圍的頻率范圍內加以區分。在瞬態或偽平穩噪聲場相干的情況下,干擾源的方向必須與到期望源的方向不同,至少是到達角的不確定度的兩倍。在低頻情況下,波束形成器的指向性和空間濾波能力會消失。對於高頻,空間混疊將來自旁瓣到主瓣的干擾折疊起來。在這種情況下,雙通道后置濾波可簡化為SISO單通道后置濾波,因為波束形成器輸出與參考信號之間的瞬態功率比不再是瞬態源的獨特特征。

  為了進一步提高在所需信號為寬帶(如語音信號)情況下的低頻和高頻下的瞬態噪聲降低效果,我們引入了信號存在的全局似然。全局似然性與在一定頻率范圍和給定時間幀內可能包含所需分量的頻率bin的數量有關。當全局似然低於某個閾值時,我們得出結論,期望的分量在該幀中缺失,並將所有頻率bins的先驗信號缺失概率設置為1。這以一種對人類聽眾更愉快的方式均勻地抑制噪聲,並且更好地消除窄帶干擾瞬變,特別是那些從觀察方向到達的瞬變。在不同車輛環境下的實驗結果表明,雙通道后置濾波優於單輸入單輸出后置濾波。當噪聲頻譜發生波動時,使用所提出的后置濾波方法在性能上的改善是顯著的。

  論文組織如下:

第二節:我們回顧了雙通道廣義旁瓣對消器,並在功率譜域中推導了波束形成器輸出、參考噪聲信號、期望源信號和輸入瞬態干擾之間的關系。

第三節:討論了波束形成器輸出噪聲時變譜的估計問題,並給出了后置濾波方法。根據波束形成器輸出與參考信號的瞬態功率比,在波束形成器輸出處檢測到所需的源分量,並將其與瞬態噪聲分量區分開來。

第四節:我們評估了在各種噪聲領域中,波束形成器識別干擾瞬態信號的能力。

第五節:我們將所提出的方法與SISO后置濾波進行了比較,並給出了在各種汽車環境下的實驗結果。

2  雙通道廣義旁瓣相消器

  設$x(t)$表示期望的源信號,$d_s(t)$和$d_t(t)$表示兩個傳感器輸出處的不相關干擾信號向量。向量$d_s(t)$表示偽平穩干擾,$d_t(t)$表示不需要的瞬態分量。假設陣列預轉向源信號的方向,觀測信號被定義為

$$公式1:z_i(t)=x(t)+d_{is}(t)+d_{it}(t),\quad i=1,2$$

其中$d_{is}(t)$和$d_{it}(t)$是對應於第$i$個傳感器的干擾信號。利用窗函數將觀測信號在時間上划分為重疊幀,並用短時傅立葉變換(STFT)進行分析。在時頻域我們有

$$公式2:\mathbf{Z}(k, \ell)=\mathbf{A} X(k, \ell)+\mathbf{D}_{s}(k, \ell)+\mathbf{D}_{t}(k ; \ell)$$

其中$\mathbf{A} \triangleq\left[\begin{array}{ll}{1} & {1}\end{array}\right]^{T}$,$k$表示頻率bin索引,$\ell$表示幀索引,以及

$$\begin{aligned} \mathbf{Z}(k, \ell) & \triangleq\left[Z_{1}(k, \ell) Z_{2}(k, \ell)\right]^{T} \\ \mathbf{D}_{s}(k, \ell) & \triangleq\left[D_{1 s}(k, \ell) D_{2 s}(k, \ell)\right]^{T} \\ \mathbf{D}_{t}(k, \ell) & \triangleq\left[D_{1 t}(k, \ell) D_{2 t}(k, \ell)\right]^{T} \end{aligned}$$

  圖1為線性約束自適應波束形成器的雙通道廣義旁瓣相消結構[20]-[21]。波束形成器包括固定波束形成器(延遲&求和)、一種產生參考噪聲信號$U(k,\ell)$的阻塞信道(延遲&相減)和一種自適應噪聲消除器$H(k,\ell)$,用於消除通過固定波束形成器的旁瓣泄漏的固定噪聲。我們假設噪聲抵消器僅適用於平穩噪聲,在瞬態干擾時不作修改。此外,我們假設某些期望的信號分量可能由於轉向誤差而通過阻塞信道。

圖1  雙通道廣義旁瓣相消器

  感興趣信號到達角的不確定性用由下式表示

$$公式3:\Delta_{k}=\frac{\omega_{k} \ell}{c} \sin (\varphi)+\phi$$

其中,$w_k=\frac{2\pi f_s(k-1)}{N}$是第k個頻率bin的中心(k=1),$N$是頻譜分析窗口的長度,$f_s$是采樣頻率,$l$是傳感器之間的距離,$c=340m/s$是聲速,$\varphi $是源方向的失配,$\phi $是相位差的估計誤差。我們設$\mathbf{W}(k)=1 / 2\left[e^{j \Delta_{k} / 2} \quad e^{-j \Delta_{k} / 2}\right]^{H}$是固定波束形成器的加權向量,並且$\mathbf{B}(k)=1 / 2\left[e^{j \Delta_{k} / 2} \quad e^{-j \Delta_{k} / 2}\right]^{H}$是分塊向量。因此,波束形成器輸出和參考噪聲信號由下式表示

$$公式4:{Y(k, \ell)=\left[\mathbf{W}^{H}(k)-H^{*}(k, \ell) \mathbf{B}^{H}(k)\right] \mathbf{Z}(k, \ell)}$$

$$公式5:{U(k, \ell)=\mathbf{B}^{H}(k) \mathbf{Z}(k, \ell)}$$

通過使平穩噪聲[22]的輸出功率最小,得到了濾波器$H(k,\ell)$的最優解。設$\mathbf{\Phi}_{\mathbf{D}_{\mathbf{s}} \mathbf{D}_{\mathbf{s}}}(k, \ell)=E\left\{\mathbf{D}_{s}(k, \ell) \mathbf{D}_{\mathbf{s}}^{H}(k, \ell)\right\}$表示輸入平穩噪聲的功率譜密度(PSD)矩陣。然后,通過求解無約束優化問題,使波束形成器輸出的穩態噪聲功率最小

$$公式6:\min _{H(k, \ell)}\left\{[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H}\right. \Phi_{\mathbf{D}_{s} \mathbf{D}_{s}}(k, \ell) \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]\}$$

$$公式7:H(k, \ell)=\left[\mathbf{B}^{H}(k) \mathbf{\Phi}_{\mathbf{S}} \mathbf{D}_{s}(k, \ell) \mathbf{B}(k)\right]^{-1} \times \mathbf{B}^{H}(k) \mathbf{\Phi}_{\mathbf{D}_{s}} \mathbf{D}_{s}(k, \ell) \mathbf{W}(k)$$

如果我們假設靜態和瞬態噪聲場是均勻的,則輸入噪聲信號的PSD矩陣與相應的空間相干函數$\tau _s(k,\ell)$相關$\tau _t(k,\ell)$,並且,

$$公式8:{\mathbf{\Phi}_{\mathbf{D}_{s} \mathbf{D}_{s}}(k, \ell)=\lambda_{s}(k, \ell)\left[\begin{array}{cc}{1} & {\Gamma_{s}(k, \ell)} \\ {\Gamma_{s}^{*}(k, \ell)} & {1}\end{array}\right]}$$

$$公式8:{\mathbf{\Phi}_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)=\lambda_{t}(k, \ell)\left[\begin{array}{cc}{1} & {\Gamma_{t}(k, \ell)} \\ {\Gamma_{t}^{*}(k, \ell)} & {1}\end{array}\right]}$$

其中$\lambda_{s}(k, \ell)$和$\lambda_{t}(k, \ell)$表示單個傳感器的輸入噪聲功率。 在這種情況下,最佳噪聲消除(7)減小為

$$公式10:H(k, \ell)=\frac{j \Im\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}$$

假設源信號、穩態噪聲和瞬態噪聲是不相關的。因此,輸入PSD矩陣由

$$公式11:\mathbf{\Phi}_{\mathbf{Z Z}}(k, \ell)=\lambda_{x}(k, \ell) \mathbf{A} \mathbf{A}^{T}+\mathbf{\Phi}_{\mathbf{D}_{s} \mathbf{D}_{s}}(k, \ell)+\mathbf{\Phi}_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)$$

其中$\lambda_{x}(k, \ell) \triangleq E\left\{|X(k, \ell)|^{2}\right\}$為所需源信號的PSD。使用(4)和(5),可以通過以下方式獲得波束形成器輸出和參考信號的PSD:

$$公式12:\phi_{Y Y}(k, \ell)=[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \mathbf{\Phi}_{\mathbf{Z} \mathbf{Z}}(k, \ell) \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]$$

$$公式13:\phi_{U U}(k, \ell)=\mathbf{B}^{H}(k) \mathbf{\Phi}_{\mathbf{Z} \mathbf{Z}}(k, \ell) \mathbf{B}(k)$$

將(8)(11)代入(12)和(13)(請參閱附錄I),我們得到了波束形成器輸出、參考信號、期望源信號和輸入干擾的PSDs之間的如下線性關系:

$$公式14:\phi_{Y Y}(k, \ell)=C_{11}(k, \ell) \lambda_{x}(k, \ell)+C_{12}(k, \ell) \lambda_{s}(k, \ell)+C_{13}(k, \ell) \lambda_{t}(k, \ell)$$

$$公式15:\phi_{U U}(k, \ell)=C_{21}(k) \lambda_{x}(k, \ell)+C_{22}(k, \ell) \lambda_{s}(k, \ell)+C_{23}(k, \ell) \lambda_{t}(k, \ell)$$

其中

$$公式16:C_{11}(k, \ell)=\left[\cos \left(\frac{\Delta_{k}}{2}\right)-\frac{\Im\left\{\underline{\theta}^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}\right.\left.\times \sin \left(\frac{\Delta_{k}}{2}\right)\right]^{2} $$

$$公式17:C_{12}(k, \ell)=\frac{1-\left|\Gamma_{s}(k, \ell)\right|^{2}}{1-\mathbb{R}\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}}$$

$$公式18:C_{13}(k, \ell)=\frac{1}{2}\left[|1+H(k, \ell)|^{2}+\mathbb{R}\{e^{j\triangle _k}\tau _t(k,\ell)[1+H(k,\ell)]^2\}\right].$$

$$公式19:C_{21}(k)=\sin ^{2}\left(\frac{\Delta_{k}}{2}\right) $$

$$公式20:C_{22}(k, \ell)=\frac{1}{2}\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k, \ell)\right\}\right]$$

$$公式21:C_{23}(k, \ell)=\frac{1}{2}\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k, \ell)\right\}\right]$$

3  雙通道后置濾波

  在這一部分中,我們討論了波束形成器輸出噪聲的時變頻譜估計問題,並提出了后置濾波方法。圖2描述了所提出的雙信道后置濾波的框圖。在波束形成器輸出端檢測到所需的源分量,並對先驗信號缺失概率$\hat{q}(k,\ell)$進行估計。

基於高斯統計模型[24]和信號存在不確定性下的先驗信噪比的的決策定向估計[25],我們導出了信號存在概率的估計器$p(k,\ell)$。該估計器控制作為噪聲引入PSD估計器的分量。最后,通過應用最佳修正對數譜幅度(OM-LSA)增益函數[25],實現波束形成器輸出的頻譜增強。該增益使對數譜在 信號存在不確定性時 均方誤差最小。

圖2  后置濾波器框圖

  設$\mathcal{S}$為功率譜域中的平滑算子

$$公式22:\begin{aligned} \mathcal{S Y}(k, \ell)=\alpha_{s} \cdot \mathcal{S Y}(k, \ell-1)+&\left(1-\alpha_{s}\right) \times \sum_{i=-w}^{w} b_{i}|Y(k-i, \ell)|^{2} \end{aligned}$$

其中$$\alpha _s(0\leq \alpha _s\leq 1)$$是時間平滑的參數,$b$是確定頻率平滑的規格化窗口函數($\sum_{i=-w}^wb_i=1$)。設$M$表示使用最小控制遞歸平均(MCRA)方法推導的背景偽平穩噪聲PSD的估算器[25],[26]。比率

$$公式23:\Lambda_{Y}(k, \ell) \triangleq \frac{\mathcal{S} Y(k, \ell)}{\mathcal{M} Y(k, \ell)}$$

$$公式24:\Lambda_{U}(k, \ell) \triangleq \frac{\mathcal{S U}(k, \ell)}{\mathcal{M U}(k, \ell)}$$

分別代表波束形成器輸出和參考信號的局部非平穩性(LNS)[19]。在沒有瞬變的情況下,LNS波動大約為1,並且在包含瞬信號的時頻bins附近,預期LNS會遠高於1。后置濾波包括在波束形成器輸出和參考信號處檢測瞬態信號,並比較它們的瞬態功率。如果我們在波束形成器的輸出端檢測到瞬態信號,但在參考信號上沒有同時檢測到瞬態信號,則可以確定這些瞬態信號可能是需要謹慎增強的源分量。另一方面,根據波束形成器輸出和參考信號的功率比來處理它們的同時瞬變。在波束形成器輸出處有較強的瞬態,表明存在所需的分量,因此應保留。而參考信號的強瞬態意味着干擾源,因此需要加以抑制。

A.波束形成器輸出處瞬態信號的檢測

  設三個假設$H_{0s}$、$H_{0t}$和$H_1$分別表示在波束形成器輸出處沒有瞬變、存在干擾瞬變和存在期望瞬變。設$\Lambda _0$表示用於在波束形成器輸出處檢測瞬變的LNS的閾值(即,如果$\Lambda _Y(k,\ell)>\Lambda _O$則確定$H_1\cup H_{0t}$,否則確定$H_0$)。錯誤報警和檢測概率定義為

$$公式25:{P_{f, Y}(k, \ell)=\mathcal{P}\left(\Lambda_{Y}(k, \ell)>\Lambda_{0} | H_{0 s}\right)}$$

$$公式26:{P_{d, Y}(k, \ell)=\mathcal{P}\left(\Lambda_{Y}(k, \ell)>\Lambda_{0} | H_{1} \cup H_{0 t}\right)}$$

然后,對於一個指定的$P_{f,Y}$,所需要的閾值和檢測概率由[19]給出

$$公式27:\Lambda_{0}=\frac{1}{\mu} F_{\chi^{2} ; \mu}^{-1}\left(1-P_{f, Y}\right)$$

$$
公式28:P_{d, Y}(k, \ell)=1-F_{\chi^{2} ; \mu}\left[\frac{1}{1+\xi_{Y}(k, \ell)} F_{\chi^{2} ; \mu}^{-1}\left(1-P_{f, Y}\right)\right]
$$

其中

$$
公式29:\xi_{Y}(k, \ell) \triangleq \frac{C_{11}(k, \ell) \lambda_{x}(k, \ell)+C_{13}(k, \ell) \lambda_{t}(k, \ell)}{C_{12}(k, \ell) \lambda_{s}(k, \ell)}
$$

表示波束形成器輸出的瞬態和偽平穩功率之比,$F_{X^2;\mu }(x)$表示具有$\mu $自由度的標准卡方分布函數。圖3顯示了用於檢測波束形成器輸出處瞬變的接收機工作特性(ROC)曲線,其中誤報概率為參數,並且u設置為22.1。該$\mu $值是采用形式(22)的平滑S(具有$\alpha _s=0.8$和標准化漢寧窗口$b=\frac{1}{12}[1 \quad 3\quad4\quad3\quad1]$)獲得的。假設我們要求的虛警概率不大於$P_{f,Y}=0.05$,並且假設在波束形成器輸出處的瞬態由$\xi _Y(k,\ell )\geq 2$定義,那么使用檢測器$\Lambda _Y(k,\ell)>\Lambda _0=1.54$獲得的檢測概率為$P_{d,Y}(k,\ell)=0.97$。

自由度:等效自由度$\mu$由平滑參數$\alpha_s$、窗口函數$b$和STFT的譜分析參數(分析窗口的大小和形狀以及幀更新步驟)確定。通過生成平穩的高斯白噪聲$d(t)$,將其轉換為時頻域,並將樣本均值和方差(在整個時頻平面上)代入表達式$\hat{\mu}\approx 2E^2\{SD(k,\ell)\}/var \{SD(k,\ell)\}$來估計$\mu$的值

圖3.  用於檢測波束形成器輸出或參考噪聲信號($\mu$= 22.1)瞬變的接收機工作特性曲線

等效自由度$\mu$由平滑參數$\alpha _s$、窗口函數$b$和STFT的譜分析參數(分析窗口的大小和形狀以及幀更新步驟)確定。通過生成平穩的高斯白噪聲$d(t)$,將其轉換為時頻域,並將樣本均值和方差(在整個時頻平面上)代入表達式$\hat{\mu }\approx 2E^2{}\{SD(k,\ell)\}/var\{SD(k,\ell)\}$

B.源和干擾瞬態的區別

  瞬態信號分量在波束形成器輸出處相對較強,而瞬態噪聲分量在參考信號處相對較強。因此,我們期望波束形成器輸出和參考信號之間的瞬態功率比對於期望的瞬態是大,對於噪聲分量小的。讓

$$
公式30:\Omega(k, \ell)=\frac{S Y(k, \ell)-\mathcal{M} Y(k, \ell)}{\mathcal{S U}(k, \ell)-\mathcal{M U}(k, \ell)}
$$

表示瞬態波束參考比(TBRR),即波束形成器輸出的瞬態功率與參考信號的瞬態功率之比。那么,假設$H_1$或$H_{0t}$是真的

$$
公式31:\begin{array}{l}{\Omega(k, \ell)_{H_{1} \cup H_{\mathrm{ot}}}} \\ {\approx \frac{\phi_{Y Y}(k, \ell)-C_{12}(k, \ell) \lambda_{s}(k, \ell)}{\phi_{\mathrm{UU}}(k, \ell)-C_{22}(k, \ell) \lambda_{s}(k, \ell)}} \\ {=\frac{C_{11}(k, \ell) \lambda_{x}(k, \ell)+C_{13}(k, \ell) \lambda_{t}(k, \ell)}{C_{21}(k) \lambda_{x}(k, \ell)+C_{23}(k, \ell) \lambda_{t}(k, \ell)}}\end{array}
$$

假設$H_1$和$H_{0t}$是唯一的,即假設所期望的和干擾的瞬變在時間-頻率域中不重疊,並且假設存在$\Omega _{high}(k)$和$\Omega _{low}(k)$這樣的閾值

$$
公式32:\begin{aligned} \Omega(k, \ell)_{H_{0 t}} & \approx \frac{C_{13}(k, \ell)}{C_{23}(k, \ell)} \leq \Omega_{\mathrm{low}}(k) \leq \Omega_{\mathrm{high}}(k) \\ & \leq \frac{C_{11}(k, \ell)}{C_{21}(k)} \approx .\left.\Omega(k, \ell)\right|_{H_{1}} \end{aligned}
$$

對於所有$\ell$,我們可以確定如果$\Omega(k,\ell)\geq \Omega _{high}(k)$,信號可能出現在第k頻率bin和第$\ell$幀。另一方面,如果$\Omega(k,\ell)\leq  \Omega _{low}(k)$,則可以確定檢測到的瞬態是干擾的。為了適應TBRR中的不確定性並提高源瞬態和干擾瞬態之間的區分,我們定義了一個表示信號存在可能性的函數$\psi (k,\ell)$。如果在波束形成器輸出端($\Lambda _Y(k,\ell)\leq \Lambda _0$)處未檢測到瞬變信號,則$\psi (k,\ell)$的值被設置為零。如果在波束形成器輸出處而不是在參考信號$\Lambda_U(k,\ell)\leq \Lambda_0< \Lambda _Y(k,\ell)$處檢測到瞬態,則$\psi (k,\ell)$被設置為1。如果在波束形成器輸出處$\Lambda_U(k,\ell),\Lambda_Y(k,\ell)>\Lambda_0$處檢測到瞬態信號,則根據(33)$\psi (k,\ell)$與$\Omega (k,\ell)$成比例,如頁底部所示。對於給定的幀,信號存在的全局可能性與可能在一定頻率范圍內包含期望分量的頻率bins的數量相關。因此,我們定義

$$公式33:
\psi(k, \ell)=\left\{\begin{array}{ll}{0,} & {\text { if } \Omega(k, \ell) \leq \Omega_{\mathrm{low}(k)}} \\ {\frac{\Omega\left(k, \ell-\Omega_{\mathrm{m}(k)}(k)\right.}{\ln \log _{\mathrm{h}}(k)-\Omega_{\mathrm{low}}(k)},} & {\text { if } \Omega_{\mathrm{low}}(k)<\Omega(k, \ell) \leq \Omega_{\mathrm{high}}(k)} \\ {1,}\end{array}\right.
$$

$$
公式34:\tilde{\psi}(\ell)=\frac{1}{k_{1}-k_{0}+1} \sum_{k=k_{0}}^{k_{1}} \psi(k, \ell)
$$

$$公式35:
q(k, \ell)=\left\{\begin{array}{ll}{1,} & {\text { if } \gamma_{s}(k, \ell) \leq 1 \text { or } \bar{\psi}(\ell) \leq \psi_{\mathfrak{v}}} \\ {\max \left\{\frac{2 \mathfrak{p}-\bar{\gamma}_{\mathfrak{g}}(k, \ell)}{\gamma_{0}-1}, 1-\psi(k, \ell)\right\},} & {\text { othervise }}\end{array}\right.
$$

其中$k_0$和$k_1$是表示頻率范圍的低頻和高頻bin指數。

圖4  先驗信號缺失概率估計的框圖

  圖4總結了用於估計先驗信號存在概率的框圖。對於每個幀和頻率bin,在時頻平面中對波束形成器輸出處的所需源分量進行檢測。首先,我們計算所有頻率bins的信號存在的局部似然。然后,生成一個全局似然$\hat{\psi }(\ell)$,並與某個閾值$\psi _0$進行比較。在全局似然太低的情況下,我們可以得出結論,認為該幀中不存在信號,並將所有頻率bins的先驗信號缺失概率$\hat{q}(k,\ell)$設置為1。這可防止窄帶干擾瞬態,特別是來自觀測方向的干擾信號,與期望的分量相混淆。這也有助於減少音樂噪音現象。在全局似然高於閾值$\psi _0$的情況下,先驗信號缺失概率與第$\ell$幀和第$k$頻率bin $(1-\psi(k,\ell))$處的信號缺失的似然有關,與波束形成器輸出處相對於偽平穩噪聲$\left.\gamma_{s}(k, \ell) \triangleq Y(k, \ell)\right|^{2} / \mathcal{M} Y(k, \ell)$的后驗SNR有關。具體來說,我們根據(35)確定先驗信號的不存在概率,如頁面底部所示,其中$\gamma _0$表示對於某個顯着性水平$\epsilon $滿足$P(\gamma _s(k,\ell))\geq \gamma _0|H_{0s}<\epsilon $的常數。由於在沒有瞬變的情況下$\gamma _s(k,\ell)$的分布是指數性的[ [26],因此常數$\gamma _0$與$\gamma _0=-\log(\epsilon)$的顯着性水平相關(通常我們使用$\epsilon =0.01$和$\gamma _0=4.6$)。

C.噪聲估計和頻譜增強

  在假設的統計模型下,信號存在概率為

$$
公式36:p(k, \ell)=\left\{1+\frac{q(k, \ell)}{1-q(k, \ell)}(1+\xi(k, \ell)) \exp (-v(k, \ell))\right\}^{-1}
$$

其中$\xi(k, \ell) \triangleq E\left\{|X(k, \ell)|^{2}\right\} / \lambda_{d}(k, \ell)$是先驗信噪比。$\lambda _d(k,\ell)$是波束形成器輸出處的噪聲PSD,$v(k, \ell) \triangleq \gamma(k, \ell) \xi(k, \ell) /(1+\xi(k, \ell))$和$\gamma(k, \ell) \triangleq | Y(k, \ell)^{2} / \lambda_{d}(k, \ell)$是后驗信噪比。先驗信噪比是由

$$
公式37:\begin{aligned} \hat{\xi}(k, \ell)=\alpha G_{H_{1}}^{2}(k, \ell-1) \gamma\left(k_{\gamma} \ell-1\right) +(1-\alpha) \max \{\gamma(k ; \ell)-1,0\} \end{aligned}
$$

其中$\alpha$是控制降噪和信號失真之間權衡的加權因子,並且

$$
公式38:G_{H_{1}}(k, \ell) \triangleq \frac{\xi(k, \ell)}{1+\xi(k, \ell)} \exp \left(\frac{1}{2} \int_{v(k, \ell)}^{\infty} \frac{e^{-t}}{t} d t\right)
$$

是當信號確實存在時對數譜幅度(LSA)估計器的譜增益函數[27]。噪聲譜估計的MCRA方法[26]是使用由平滑周期圖的最小值控制的平滑參數遞歸平均噪聲測量的過去譜功率值。遞歸平均值由

$$
公式39:\hat{\lambda}_{d}(k, \ell+1)=\left.\tilde{\alpha}_{d}(k ; \ell) \hat{\lambda}_{d}(k, \ell)\left[1-\tilde{\alpha}_{d}(k, \ell)\right] Y(k, \ell)\right|^{2}
$$

其中,$\hat{\alpha_d}(k,\ell)$是時變頻率相關的平滑參數,$\beta $是當信號不存在時補償偏差的因子。平滑參數由信號存在概率$p(k,\ell)$和表示其最小值的常數$\alpha_d(0<\alpha_d<1)$確定

$$

公式40:\tilde{\alpha}_{d}(k, \ell) \triangleq \alpha_{d}+\left(1-\alpha_{d}\right) p(k, \ell)
$$

當信號存在時,$\hat{\alpha_d}$是接近於1的,從而防止由於信號分量而增加噪聲估計。當信號存在的概率減小時,平滑參數變小,有利於更快地更新噪聲估計。

  最后給出了干凈信號STFT的估計

$$公式41:\hat{X}(k,\ell)=G(k,\ell)Y(k,\ell)$$

其中

$$公式42:G(k, \ell)=\left\{G_{H_{1}}(k, \ell)\right\}^{p(k, \ell)} \cdot G_{\mathrm{min}}^{1-p(k, \ell)}$$

圖5 雙通道后置濾波算法

表一  參數值用於實現提出的雙通道后置濾波,采樣率為8khz

 

是OM-LSA增益函數,$G_{min}$表示信號缺失時增益的下限約束。 圖5給出了了雙通道后置濾波算法的實現。表I給出了8 kHz采樣率時各個參數的典型值。 在(34)中用於計算信號存在的全局似然性的低頻和高頻bin指數$k_0=9$和$k_1=13$的值對應於[255,3500] Hz的頻率范圍。

4  理論分析

  在這一節中,我們假設偽平穩和瞬態噪聲的空間相干函數$\tau _s(k,\ell)$和$\tau _t(k,\ell)$與幀索引無關,我們定義了一個瞬態鑒別質量,它表明波束形成器能夠識別不同於源瞬態的干擾瞬態,並在不同的噪聲場中評估這種質量。

  根據(32)中的不等式,只要給定$H_1$為真的($\Omega (k,\ell)|_{H_1}$)TBRR值的范圍很容易與給定$H_{0t}$為真的($\Omega (k,\ell)|_{H_{0t}}$)范圍區分開來,期望瞬態和干擾瞬態之間的區分質量就很高。否則,僅TBRR不足以確定在波束形成器輸出和參考信號處同時檢測到的瞬變源。在第k個頻點處的波束形成器的瞬態鑒別質量由

$$
Q(k)=\frac{C_{11}(k) C_{23}(k)}{C_{21}(k) C_{13}(k)} \approx \frac{\Omega (k,\ell |_{H_1})}{\Omega(k,\ell)|_{H_{0t}}}
$$

其中,由於假設$\tau _s$和$\tau _t$與$\ell$無關,因此,如(16)(21)中所述的$\{C_{ij}(k)|i=1,2;j=1,2,3\}$與$\ell$無關。然后從(32)中得出,在瞬態噪聲與所需信號分量之間進行可靠的區分需要$Q(k) >>1$。 實踐中,假設$H_1$為真,則(30)中的分母和分母的分布通過具有$\mu $自由度的卡方分布進行近似,而TBRR的分布通過F分布進行近似

$$
\begin{aligned} \mathcal{P}\left(\left.[\mathcal{S Y}(k, \ell)-\mathcal{M} Y(k, \ell)]\right|_{H_{1}} \leq \epsilon\right) &=F_{\chi^{2} ; \mu}\left(\frac{\mu \epsilon}{C_{11}(k) \lambda_{x}(k, \ell)}\right) \\ \mathcal{P}\left(\left.[\mathcal{S Y}(k, \ell)-\mathcal{M} Y(k, \ell)]\right|_{H_{1}} \leq \epsilon\right) &=F_{\chi^{2} ; \mu}\left(\frac{\mu \epsilon}{C_{21}(k) \lambda_{x}(k, \ell)}\right) \\ \mathcal{P}\left(\left.\Omega(k, \ell)\right|_{H_{1}} \leq \epsilon\right) &=F_{F ; \mu, \mu}\left(\epsilon \frac{C_{21}(k)}{C_{11}(k)}\right) \end{aligned}
$$

其中

$$
F_{F ; a, b}(x) \triangleq 1-I_{(1+a x / b)^{-1}}\left(\frac{a}{2}, \frac{b}{2}\right)
$$

是標准的F分布函數,$I_x(a,b)$是不完全 beta 函數[28]。我們要求TBRR的概率小於閾值$\Omega _{high}(k)$和$\Omega _{low}(k)$,假設$H_1$為真,最大為0.1和0.01

$$
\begin{array}{c}{\mathcal{P}\left(\left.\Omega(k, \ell)\right|_{H_{1}} \leq \Omega_{\text {high }}(k)\right) \leq 0.1} \\ {\mathcal{P}\left(\left.\Omega(k, \ell)\right|_{H_{1}} \leq \Omega_{\text {low }}(k)\right) \leq 0.01}\end{array}
$$

因此,閾值由

$$公式44:\Omega_{\text {high }}(k) =F_{F ; \mu, \mu}^{-1}(0.1) \frac{C_{11}(k)}{C_{21}(k)}=0.57 \frac{C_{11}(k)}{C_{21}(k)}$$

$$公式45:\Omega_{\text {low }}(k) =F_{F ; \mu, \mu}^{-1}(0.01) \frac{C_{11}(k)}{C_{21}(k)}=0.63 \Omega_{\text {high }}(k) $$

其中$\mu=22.1$。這與$\Omega _{low}(k)$大於$\frac{C_{13}(k)}{C_{23}(k)}$的要求一起,意味着在具有以下特征的頻率bins中可以獲得令人滿意的辨別性能

$$公式46:
Q(k) \geq \frac{1}{F_{F_{i}, \mu, \mu}^{-1}(0.01)}=2.78
$$

$$公式47:Q(k) =\frac{\left\{\cot \left(\frac{\Delta_{i}}{2}\right)\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k)\right\}\right]-\Im\left\{e^{j \Delta_{k}} \Gamma_{s}(k)\right\}\right\}^{2}\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}\right]}{\left|1-e^{j \Delta_{k}} \Gamma_{s}(k)\right|^{2}+\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\left[1-e^{-j \Delta_{k}} \Gamma_{s}^{*}(k)\right]^{2}\right\}}$$

$$公式48:\Omega_{\text {high }}(k) =0.57\left[\cot \left(\frac{\Delta_{k}}{2}\right)-\frac{\Im\left\{e^{j \Delta_{k}} \Gamma_{s}(k)\right\}}{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{s}(k)\right\}}\right]^{2} $$

將(10)和(16)(21)代入(44)和(43),我們可以根據空間相干函數和到達角的不確定性(見本頁底部的(47)和(48))來明確表示瞬時分辨質量和TBRR的上閾值。我們注意到$\Omega_{high}(k)$與瞬態噪聲場無關,因為其值由與TBRR相關的置信水平確定,假設$H_1$為真,並且我們假設期望和干擾瞬態在時頻域($H_1\cap H_{ot}=\text{\O}$)中不重疊。

  為了真實地評估所提出的方法在各種聲學環境中的辨別能力,我們將傳感器之間的距離設為$\ell=10 cm$,源方向$\phi=5^o$的失配,以及相位$\phi=5^o$的差分的估計誤差。圖6-8顯示非相干、漫射和相干噪聲場的瞬態鑒別質量。TBRR的各自上限閾值在圖9中進行了描述。解析表達式見附錄II。

  通常,在特定頻帶內可以實現所需瞬變和干擾瞬變之間的區別。在很寬的頻率范圍內滿足了瞬態鑒別質量應足夠大的要求(46)。對於低頻,會丟失波束形成器的方向性及其空間濾波能力。對於高頻,空間混疊會折疊從側面到主瓣的干擾。在這些情況下,由於波束形成器輸出和參考信號之間的瞬態功率比不再是瞬態源的獨特特征,因此雙通道后置濾波減少為SISO后置濾波。在相干噪聲場的情況下,僅當干擾信號來自與觀看方向不同的方向時,才有可能進行區分。由於到達角估計中的誤差$\phi$,干擾源的方向應至少偏離目標源的方向$2\phi$。

圖6  非相干偽平穩噪聲和(a)非相干,(b)相干和(c)漫射瞬態噪聲場的瞬態識別質量。

參考(b),$Q_t$是瞬態噪聲場的到達角,暗區代表$Q$大於2.78的區域(具有令人滿意的識別性能的區域)。

圖7  漫射偽平穩噪聲和(a)非相干,(b)相干和(c)漫射瞬態噪聲場的瞬態鑒別質量。

參考(b),$Q_t$是瞬態噪聲場的到達角,暗區表示具有令人滿意的識別性能的區域(Q>2.78)

圖8  到達角為$Q_s$的相干偽平穩噪聲場的瞬態鑒別質量:

(a)瞬態噪聲不相干;(b)瞬態噪聲相干,頻率為1khz;

(c)瞬態噪聲相干,$Q_s$為30;(d)瞬態噪聲是彌散的,

暗區代表了較好的分辨性能($Q\geq 2.78$)

 圖9  在偽平穩噪聲為(a)非相干(實線)、漫射(虛線)或(b)相干($\theta _s$=30(實線)、$\theta _s$=60(虛線)或$\theta _s$=90(虛線)的情況下,瞬態光束與參考比的上限。  

5  實驗結果

  在本節中,我們將所提出的后置濾波方法與各種汽車環境中的SISO后過濾進行比較。 績效評估包括客觀的質量度量,以及語音頻譜圖和非正式聽力測試的主觀研究。

  兩個相距10厘米的麥克風安裝在車的遮陽板上。在沒有背景噪聲(站着的汽車、安靜的環境)的情況下,以8khz的采樣率記錄干凈的語音信號。當車速約為60公里/小時時,會錄下一個干擾揚聲器和汽車噪音信號,司機旁邊的車窗或關閉或微開(約5厘米;其他窗戶都關着。輸入麥克風信號由語音和噪聲信號在[-5,10]dB范圍內的不同信噪比水平混合產生。

  雙通道GSC波束形成應用於噪聲信號。波束形成器輸出使用OM-LSA估計器[25]進行增強,稱為SISO后置濾波輸出。另外,使用第三節中描述的過程增強的波束形成器輸出稱為雙通道后置濾波輸出。在我們的評估中使用了三種不同的客觀質量測量方法。第一個是[29]定義的分段信噪比。

$$公式49:\begin{aligned} \operatorname{Seg} \mathrm{SNR} &=\frac{1}{L} \sum_{\ell=0}^{L-1} 10 \cdot \log \frac{\sum_{n=0}^{N-1} x^{2}\left(n+\frac{\ell N}{2}\right)}{\sum_{n=0}^{N-1}\left[x\left(n+\frac{\ell N}{2}\right)-\hat{x}\left(n+\frac{\ell N}{2}\right)\right]^{2}}[\mathrm{dB]}\end{aligned}$$

其中L表示信號中的幀數,N = 256是每幀的采樣數(對應於32 ms幀,50%和重疊)。 每一幀的分段SNR被限制在35 dB到-10dB之間的感知意義范圍內[30]-[31]。 該措施同時考慮了殘留噪聲和語音失真。 第二個質量指標是噪聲減少量(NR),其定義為

$$公式50:\mathrm{NR}=\frac{1}{\mathcal{L}^{\prime}} \sum_{\ell \in \mathcal{L}^{\prime}} 10 \cdot \log \frac{\sum_{n=0}^{N-1} z_{1}^{2}\left(n+\frac{\ell N}{2}\right)}{\sum_{n=0}^{N-1} \hat{x}^{2}\left(n+\frac{\ell N}{2}\right)}[\mathrm{dB}]$$

其中$\mathcal{L}^{\prime}$表示僅包含噪聲的幀集,$\mathcal{L}^{\prime}$表示基數。 NR測量將增強信號中的噪聲電平與第一麥克風記錄的噪聲水平進行比較。 第三個質量度量是對數譜距離(LSD),其定義為

$$公式51:\begin{aligned} \mathrm{LSD}=\frac{1}{L} \sum_{\ell=0}^{L-1}\left\{\frac{1}{\frac{N}{2}+1}\right.& \sum_{k=0}^{N / 2}\left[10 \cdot \log \mathcal{A} X\left(k_{s} \ell\right)\right.\left.-10 \cdot \log \mathcal{A} \hat{X}(k, \ell)]^{2}\right\}^{1 / 2}[\mathrm{dB}] \end{aligned}$$

其中$\mathcal{A X}(k, \ell) \triangleq \max \left\{| X(k, \ell)^{2}, \delta\right\}$是頻譜功率,截斷后的將對數頻譜動態范圍限制在大約50 dB(即$\[\delta  = {10^{ - \frac{{50}}{{10}}}}*\mathop {\max }\limits_{k,\ell } \{ X(k,\ell ){|^2}\} \]$)。

圖10  在($\Delta $)麥克風#1,(o)波束形成器輸出,(x)單輸入單輸出(SISO)后置濾波輸出,(*)雙通道后置濾波輸出,和(實線)理論極限后置濾波輸出下,在各種車噪條件下的平均分段信噪比:(a)關閉車窗;(b)打開車窗;(c)干擾揚聲器。

(c)

圖11  針對各種汽車噪聲,(o)波束形成器輸出,(x)SISO后置濾波輸出,(*)雙通道后置濾波輸出和(實線)理論極限后置濾波輸出的平均噪聲降低 條件:(a)關閉的窗戶; (b)打開窗戶; (c)干擾揚聲器

圖12  ($\Delta $)1號麥克風,(o)波束形成器輸出,(x)SISO后置濾波輸出,(*)雙通道后置濾波輸出和(實線)理論上的平均對數光譜距離 針對各種汽車噪聲情況,限制后過濾輸出:(a)封閉的窗戶; (b)打開窗戶; (c)干擾揚聲器。

  圖10為不同噪聲類型和不同噪聲水平下的平均節段信噪比實驗結果。在其中一個麥克風,在波束形成器輸出,在后置濾波輸出,節段信噪比被評估。還考慮了通過計算噪聲本身的噪聲譜來實現的理論后置濾波極限。圖11和圖12分別給出了NR和LSD的測定結果。這表明,在汽車環境中,波束形成本身並不能提供足夠的降噪效果,因為它對降低擴散噪聲[17]的能力有限。此外,在所有噪聲條件下,雙通道后置濾波始終優於單通道后置濾波。在非平穩噪聲環境中(特別是在打開窗戶或干擾揚聲器的情況下),前者的性能比后者有更高的改進,但在其他方面的改進並不顯著,因為在偽平穩噪聲環境中,雙通道后置濾波可簡化為單通道后置濾波。

圖13  語音譜圖
(a) 麥克風上的原始清晰語音信號1:“撥一二三四五”;
(b) 麥克風#1處有噪音信號(汽車噪音、打開車窗、干擾揚聲器。SNR=0dB,SegSNR=-6.5dB,LSD=12.5dB);
(c) 波束形成器輸出(SegSRN=-5.0dB,NR=6.6dB,LSD=8.0dB);
(d) SISO后置濾波輸出(SegSRN=-3.0dB,NR=16.1dB,LSD=3.9dB);
(e) 雙通道后置濾波輸出(SegSRN=-0.9dB,NR=26.2db,LSD=2.4db);
(f) 理論極限(SegSNR=-0.5dB,NR=26.4dB,LSD=2.1dB)

 圖14  通過提議的雙通道后置濾波(實線)和理論極限(虛線)獲得的對SISO后置濾波的改進軌跡:(a)分段SNR的提高; (b)減少對數光譜距離

  使用語音譜圖對雙通道后置濾波和單通道后置濾波進行了主觀比較,並通過非正式聽力測試進行了驗證。圖13給出了在信噪比為0 dB時非平穩噪聲的語音譜圖的典型例子。駕駛員旁邊的車窗微開,風吹產生瞬態低頻噪聲,車輛通過產生寬帶瞬態噪聲。波束形成器輸出[圖13(c)]的明顯特點是噪音高。它的增強使用SISO后置濾波井抑制偽平穩噪聲,但不利地保留瞬態噪聲成分。相比之下,采用雙通道后置濾波的增強方法得到了較好的降噪效果。進行了主觀的非正式聽力測試,以驗證所需的源組件是否保存完好。

  圖14顯示了與SISO后置濾波相比,通過雙通道后置濾波和理論極限得到的分段信噪比和LSD度量的改善。在大約400 ms的時間內(25幀,每幀32毫秒,有50%的重疊)對這些軌跡進行平均。在噪聲頻譜波動的情況下,得到了較SISO后置濾波性能的改善。在某些情況下,分段性信噪比的增加超過4db,而LSD的減少大於5db。SISO后置濾波器在衰減高非平穩噪聲成分方面效率低下,因為它缺乏將這些成分與語音成分區分開來的能力。另一方面,所提出的雙通道后置濾波方法在不進一步干擾語音成分的情況下,顯著降低了背景噪聲,無論背景噪聲是否平穩。

6  總結

  我們分析了一種用於廣義旁瓣相消器的雙通道后置濾波方法,這種方法在非平穩噪聲環境中特別有優勢。后置濾波包括在波束形成器輸出和參考信號處檢測瞬態信號,比較它們的瞬態功率,估計信號存在概率,估計波束形成器輸出噪聲的PSD,以及為最小化對數譜的均方誤差而進行的譜增強。基於局部非平穩性的測量方法來檢測瞬態信號,並根據瞬態波束參考比將其分為期望的和干擾的兩類。

  介紹了一種瞬態鑒別質量測量方法,量化了波束形成器識別干擾瞬態與源瞬態的能力。在各種噪聲場中對這一方法的評價表明,在大范圍的頻率范圍內區分期望瞬態和干擾瞬態是可行的。在相干噪聲場的情況下,只有當干擾信號來自比期望源方向至少兩倍於到達角不確定度的不同方向時,才有可能進行這種分辨。低頻時,波束形成器的指向性消失,高頻時,由於空間混疊,瞬態波束參考比不再是瞬態源的顯著特征。

 

  如果需要的信號是寬帶的(例如,語音信號),我們通過考慮信號存在的全局可能性來提高在低頻率和高頻率下的瞬態降噪。全局可能性與頻率箱的數量有關,這些頻率箱可能在一定的頻率范圍內和給定的時間范圍內包含所需的組件。當全局似然值低於某一閾值時,將所有頻率箱的先驗信號缺失概率重置為1。這也有助於消除來自觀測方向的窄帶干擾瞬態信號,並以一種對人類聽眾更愉快的方式均勻地抑制噪聲。

  將提出的后置濾波方法與最先進的SISO后置濾波方法進行了比較。我們證明,單波束形成是不夠的,在汽車環境,由於其有限的能力,以減少擴散噪聲。SISO后濾波能很好地抑制偽平穩噪聲。然而,通過波束形成器泄漏的瞬態噪聲分量通過后濾波器進行。單輸入單輸出(SISO)后濾波器在衰減高度非平穩的噪聲分量時效率很低,因為它缺乏區分這些分量和語音分量的能力。相比之下,雙通道后濾波在保持所需源分量的同時,顯著降低了背景噪聲水平(無論是否平穩)。

附錄 I

推導(14)- (21)

  將(11)代入(12)和(13),使用${{\bf{\Phi }}_{{{\bf{D}}_{\bf{s}}}{{\bf{D}}_s}}}(k,\ell ) = {\lambda _{\bf{s}}}(k,\ell ){{\bf{\Gamma }}_{{{\bf{D}}_s}{{\bf{D}}_s}}}(k,\ell )$和$\mathbf{\Phi}_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)=\lambda_{t}(k, \ell) \Gamma_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)$

$$
\begin{aligned} \phi_{Y Y}(k, \ell)=&[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \mathbf{A} \mathbf{A}^{T} \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)] \lambda_{x}(k ; \ell) \\ &+[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \Gamma_{\mathbf{D}_{s}} \mathbf{D}_{s}(k, \ell) \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)] \lambda_{s}(k, \ell) \\ &+[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \Gamma_{D}(k, \ell) \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)] \lambda_{t}(k, \ell) \\ \phi_{U U}(k, \ell)=& \mathbf{B}^{H}(k) \mathbf{A} \mathbf{A}^{T} \mathbf{B}(k) \lambda_{x}(k, \ell) \\ &+\mathbf{B}^{H}(k) \Gamma_{D_{s}} \mathbf{D}_{s}(k, \ell) \mathbf{B}(k) \lambda_{s}(k, \ell) \\ &+\mathbf{B}^{H}(k) \mathbf{\Gamma}_{\mathbf{D}_{t}}(k, \ell) \mathbf{B}(k) \lambda_{t}(k, \ell) \end{aligned}
$$

因此,(14)和(15)由

$$
\begin{aligned} C_{11}(k, \ell)=&[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \mathbf{A} \mathbf{A}^{T} \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)] \\ C_{12}(k, \ell)=&[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \\ &\left.\times \Gamma_{D, D_{s}}(k, \ell) H(k)-\mathbf{B}(k) H(k, \ell)\right] \\ C_{13}(k, \ell)=&[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \Gamma_{D_{t} D_{t}}(k, \ell) \\ & \times[\mathbf{W}(k)-\mathbf{B}(k) H(k, \ell)]^{H} \Gamma_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell) \\ C_{21}(k)=& \mathbf{B}^{H}(k) \mathbf{A} \mathbf{A}^{T} \mathbf{B}(k) \\ C_{22}(k)=& \mathbf{B}^{H}(k) \mathbf{\Gamma}_{D_{s}} \mathbf{D}_{s}(k, \ell) \mathbf{B}(k) \\ C_{23}(k, \ell)=& \mathbf{B}^{H}(k) \Gamma_{D_{t} \mathbf{D}_{t}}(k, \ell) \mathbf{B}(k) \end{aligned}
$$

用這些表達式代替固定波束形成器$\mathbf{W}(k)=1 / 2\left[e^{j \Delta_{k} / 2} \quad e^{-j \Delta_{k} / 2}\right]^{H}$的加權矢量,分塊矢量$\mathbf{B}(k)=1 / 2\left[e^{j \Delta_{k} / 2} \quad e^{-j \Delta_{k} / 2}\right]^{H}$,最佳噪聲消除器(10)和噪聲空間相干函數

$$

\begin{array}{ll}{\Gamma_{\mathbf{D}_{s} \mathbf{D}_{s}}(k, \ell)=}{\left[\begin{array}{cc}{1} & {\Gamma_{s}(k, \ell)} \\ {\Gamma_{s}^{*}(k, \ell)} & {1}\end{array}\right]} \\
{\boldsymbol{\Gamma}_{\mathbf{D}_{t} \mathbf{D}_{t}}(k, \ell)=\left[\begin{array}{cc}{1} & {\Gamma_{t}(k, \ell)} \\ {\Gamma_{t}^{*}(k, \ell)} & {1}\end{array}\right]}\end{array}

$$

產生(16)-(20)。

附錄 II

不同聲環境下$Q(k)$和$\Omega _{high}(k)$的計算

  在本附錄中,我們計算了各種聲學環境的瞬態識別質量$Q(k)$和閾值$\Omega_{high}(k)$。 假定偽平穩和瞬態噪聲場是非相干,相干或擴散的。 對於非相干噪聲場,所有頻率的空間相干函數均為零。 如果噪聲場是相干的,則其空間相干函數為$\tau (k)=\exp (-j(w_kl/c)\sin \theta $,即到達角。 對於散布噪聲場,空間相干函數為$\tau (k)=\sin (w_kl/c)/(w_kl/c)=sinc (w_kl/c)$。因此,通過將相應的空間相干函數代入(47)和(48),可以計算出各種偽平穩和瞬態噪聲場的$Q(k)$和$\Omega_{high}(k)$。

A.非相干偽平穩噪聲

  假設偽平穩噪聲是不相干的$\tau_s(k)=0$,我們有

$$公式52:Q(k) =\cot ^{2}\left(\frac{\Delta_{k}}{2}\right) \frac{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}}{1+\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}}$$

$$公式53:\Omega_{\text {high }}(k) =0.57 \cot ^{2}\left(\frac{\Delta_{k}}{2}\right)$$

如果瞬態噪聲也不連貫$(\tau_t(k)=0)$,則瞬態鑒別質量降低到

$$公式54:
Q(k)=\cot ^{2}\left(\frac{\Delta_{k}}{2}\right)
$$

對於相干瞬態噪聲場,空間相干函數為${\tau _t}(k) = \exp ( - j({w_k}l/c)\sin {\theta _t}) \buildrel \Delta \over = \exp ( - j{w_k}{\tau _t})$,其中$\theta _t$是干擾瞬態噪聲場的到達角。 在這種情況下,瞬態鑒別質量為

$$公式55:
Q\left(k, \theta_{t}\right)=\cot ^{2}\left(\frac{\Delta_{k}}{2}\right) \frac{1-\cos \left(\omega_{k} \tau_{t}-\Delta_{k}\right)}{1+\cos \left(\omega_{k} \tau_{t}-\Delta_{k}\right)}
$$

對於擴散瞬態噪聲場,我們有

$$公式56:
Q(k)=\cot ^{2}\left(\frac{\Delta_{k}}{2}\right) \frac{1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}}{1+\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}}
$$

B.彌漫偽平穩噪聲

  假設偽平穩噪聲是擴散的,我們有(見頁面底部的(57)和(58))。非相干瞬態噪聲場

$$公式57:Q(k)=\frac{\cot ^{2}\left(\frac{\Delta_{k}}{2}\right)\left[1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right]^{2}\left[1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}\right]}{\left|e^{j \Delta_{k}}-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right|^{2}+\Re\left\{e^{-j \Delta_{k}} \Gamma_{t}(k)\left[e^{j \Delta_{k}}-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right]^{2}\right\}}$$

$$公式58:\Omega_{\mathrm{high}}(k) =0.57 \frac{\cot ^{2}\left(\frac{\Delta_{k}}{2}\right)\left[1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right]^{2}}{\left[1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}\right]^{2}}$$

$$公式59:
Q(k)=\frac{\cot ^{2}\left(\frac{\Delta_{k}}{2}\right)\left[1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)\right]^{2}}{1-2 \operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}+\operatorname{sinc}^{2}\left(\frac{\omega_{k} \ell}{c}\right)}
$$

相干暫態噪聲場見(60)。對於擴散瞬態噪聲場

$$公式61:
Q(k)=\cot ^{2}\left(\frac{\Delta_{k}}{2}\right) \frac{1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)}{1+\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right)}
$$

C.相干偽平穩噪聲

  假設偽平穩噪聲是相干的,則其空間相干函數為${\tau _s}(k) = \exp ( - j({w_k}l/c)\sin {\theta _s}) \buildrel \Delta \over = \exp ( - j{w_k}{\tau _s})$,其中$\theta _s$為到達角。 在這種情況下

$$公式62:
{Q\left(k, \theta_{s}\right)=\frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\omega_{k}}{2}\right)} \frac{1-\Re\left\{e^{j \Delta_{k}} \Gamma_{t}(k)\right\}}{1-\Re\left\{e^{j \omega_{k} \tau_{s}} \Gamma_{t}(k)\right\}}}
$$

$$公式63:

{\Omega_{\text {high }}(k)=0.57 \frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\Delta_{k}}{2}\right) \sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}-\frac{\Delta_{k}}{2}\right)}}

$$

非相干瞬態噪聲場

$$公式64:
Q\left(k, \theta_{s}\right)=\frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\Delta_{k}}{2}\right)}
$$

對於相干瞬態噪聲場

$$公式65:
Q\left(k, \theta_{s}, \theta_{t}\right)=\frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\Delta_{k}}{2}\right)} \frac{1-\cos \left(\omega_{k} \tau_{t}-\Delta_{k}\right)}{1-\cos \left(\omega_{k} \tau_{t}-\omega_{k} \tau_{s}\right)}
$$

對於擴散瞬態噪聲場

$$公式66:
Q\left(k, \theta_{s}\right)=\frac{\sin ^{2}\left(\frac{\omega_{k} \tau_{s}}{2}\right)}{\sin ^{2}\left(\frac{\Delta_{k}}{2}\right)} \frac{1-\sin c\left(\frac{\omega_{k} \ell}{c}\right) \cos \Delta_{k}}{1-\operatorname{sinc}\left(\frac{\omega_{k} \ell}{c}\right) \cos \left(\omega_{k} \tau_{s}\right)}
$$

參考文獻

[1] M. S. Brandstein and D. B. Ward, Eds., Microphone Arrays: Signal Processing Techniques and Applications. Berlin, Germany: Springer- Verlag, 2001.
[2] C. Marro, Y. Mahieux, and K. U. Simmer, Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering, IEEE Trans. Speech Audio Processing, vol. 6, pp. 240 259, May 1998.
[3] K. U. Simmer, J. Bitzer, and C. Marro, Post-Filtering Techniques. Berlin, Germany: Springer-Verlag, 2001, ch. 3, pp. 39 60.
[4] R. Zelinski, A microphone array with adaptive post-filtering for noise reduction in reverberant rooms, in Proc. 13th IEEE Internat. Conf. Acoust. Speech Signal Process., New York, Apr. 11 14, 1988, pp. 2578 2581.
[5] , Noise reduction based on microphone array with LMS adaptive post-filtering, Electron. Lett., vol. 26, no. 24, pp. 2036 2037, Nov. 1990.
[6] K. U. Simmer and A. Wasiljeff, Adaptive microphone arrays for noise suppression in the frequency domain, in Proc. 2nd Cost-229 Workshop on Adaptive Algorithms in Communications, Bordeaux, France, October 30, 1992, pp. 185 194.
[7] S. Fischer and K. U. Simmer, An adaptive microphone array for hands-free communication, in Proc. 4th Int. Workshop on Acoustic Echo and Noise Control, Røros, Norway, June 21 23, 1995, pp. 44 47.
[8] , Beamforming microphone arrays for speech acquisition in noisy environments, Speech Commun., vol. 20, no. 3 4, pp. 215 227, Dec. 1996.
[9] K. U. Simmer, S. Fischer, and A. Wasiljeff, Suppression of coherent and incoherent noise using a microphone array, Annales Des Télécommunications, vol. 49, no. 7 8, pp. 439 446, July 1994.
[10] J. Bitzer, K. U. Simmer, and K.-D. Kammeyer, Multichannel noise reduction-algorithms and theoretical limits, in Proc. Eur. Signal Processing Conf., Rhodes, Greece, September 8 11, 1998, pp. 105 108.
[11] , Theoretical noise reduction limits of the generalized sidelobe canceller (GSC) for speech enhancement, in Proc. 24th IEEE Int. Conf. Acoust. Speech Signal Process., Phoenix, AZ, March 15 19, 1999, pp. 2965 2968.
[12] , Multi-microphone noise reduction by post-filter and superdirective beamformer, in Proc. 6th Int. Workshop on Acoustic Echo and Noise Control, Pocono Manor, PA, September 27 30, 1999, pp. 100 103.
[13] , Multi-microphone noise reduction techniques as front-end devices for speech recognition, Speech Commun., vol. 34, no. 1 2, pp. 3 12, Apr. 2001.
[14] J. Meyer and K. U. Simmer, Multi-channel speech enhancement in a car environment using Wiener filtering and spectral subtraction, in Proc. 22th IEEE Int. Conf. Acoust. Speech Signal Process., Munich, Germany, Apr. 20 24, 1997, pp. 1167 1170.
[15] S. Fischer and K.-D. Kammeyer, Broadband beamforming with adaptive postfiltering for speech acquisition in noisy environments, in Proc. 22th IEEE Int. Conf. Acoust. Speech Signal Process., Munich, Germany, April 20 24, 1997, pp. 359 362.
[16] I. A. McCowan, C. Marro, and L. Mauuary, Robust speech recognition using near-field superdirective beamforming with post-filtering, in Proc. 25th IEEE Int. Conf. Acoust. Speech Signal Process., Istanbul, Turkey, June 5 9, 2000, pp. 1723 1726.
[17] S. Gannot, D. Burshtein, and E. Weinstein, Signal enhancement using beamforming and nonstationarity with applications to speech, IEEE Trans. Signal Processing, vol. 49, pp. 1614 1626, Aug. 2001.
[18] I. Cohen and B. Berdugo, Microphone array post-filtering for nonstationary noise suppression, in Proc. 27th IEEE Int. Conf. Acoust. Speech Signal Process., Orlando, FL, May 13 17, 2002, pp. 901 904.
[19] Multi-channel post-filtering in non-stationary noise environments, IEEE Trans. Signal Processing, to be published.
[20] L. J. Griffiths and C. W. Jim, An alternative approach to linearly constrained adaptive beamforming, IEEE Trans. Antennas Propagat., vol. AP-30, no. 1, pp. 27 34, Jan. 1982.
[21] C.W. Jim, A comparison of two LMS constrained optimal array structures, Proc. IEEE, vol. 65, pp. 1730 1731, Dec. 1977.
[22] B.Widrow and S. D. Stearns, Adaptive Signal Processing. Englewood Cliffs, NJ: Prentice-Hall, 1985.
[23] S. Nordholm, I. Claesson, and P. Eriksson, The broadband Wiener solution for Griffiths-Jim beamformers, IEEE Trans. Signal Processing, vol. 40, pp. 474 478, Feb. 1992.
[24] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-32, pp. 1109 1121, Dec. 1984.
[25] I. Cohen and B. Berdugo, Speech enhancement for nonstationary noise environments, Signal Process., vol. 81, no. 11, pp. 2403 2418, Oct. 2001.
[26] I. Cohen, Noise spectrum estimation in adverse environments: Improved minima controlled recursive averaging, IEEE Trans. Speech Audio Processing, vol. 11, pp. 466 475, Sept. 2003.
[27] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean-square error log-spectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-33, pp. 443 445, Apr. 1985.
[28] R. N. McDonough and A. D. Whalen, Detection of Signals in Noise, 2nd ed. San Diego, CA: Academic Press, 1995.
[29] S. R. Quackenbush, T. P. Barnwell, and M. A. Clements, Objective Measures of Speech Quality. Englewood Cliffs, NJ: Prentice-Hall, 1988.
[30] J. R. Deller, J. H. L. Hansen, and J. G. Proakis, Discrete-Time Processing of Speech Signals, 2nd ed. New York: IEEE Press, 2000.
[31] P. E. Papamichalis, Practical Approaches to Speech Coding. Englewood Cliffs, NJ: Prentice-Hall, 1987.

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM