Chapter 7:Statistical-Model-Based Methods


作者:桂。

時間:2017-05-25  10:14:21

主要是《Speech enhancement: theory and practice》的讀書筆記,全部內容可以點擊這里

書中代碼:http://pan.baidu.com/s/1hsj4Wlu,提取密碼:9dmi


前言

  最近學習有一點體會,每一個學科的理論模型都提供了解決問題的思路,一個沒有受過教育又迷信權威的頭腦,難以從抽象的角度去認識、理解問題,自然科學傳遞了這樣一套思維。例如之前的譜減法,就是具體問題具體分析;維納濾波,表達了復盤、以及反饋總結的重要性;這一章的統計模型,表達了對於不善於長期記憶的人類,借助歷史信息可以獲得更多的益處。總結一下,這些模型都表明:認識問題要經過感性-理性-感性的往復過程,很難有一勞永逸的方法,這也提醒思考的時候要小心、並保持客觀(因為總有新問題),避免陷入剛愎自用的誤區,同時也不必灰心喪氣,從Ada-boost的角度來看,任何弱分類器都可以組合成強分類器,自己/他人的經歷、經驗增加(無論真假,只要努力推理出真與假的傾向),一個基本事實是:合理利用這些信息,總會讓人更接近事實真相。具體來說,對於語音降噪,都有:意識到問題——拆解並解決問題 的步驟,這也說明了一個現象:學習、記憶、認知,這些 靠眼耳鼻舌身意 直觀接受的過程,如果二次加工,那么效果將會進一步提升。

  這一章主要是利用統計模型,細節處打算跳過,主要是三種模型:最大似然估計ML、最小均方誤差估計MMSE、最大后驗估計MAP。

一、最大似然估計:MAXIMUM-LIKELIHOOD ESTIMATORS

  A-最大似然估計

加性噪聲模型

寫成幅頻形式

為了求解,給出兩點假設:1)雖然未知,但是確定信號,而不是隨機信號;2)噪聲是復高斯分布,且實部、虛部的方差相同;

這個求解比較復雜,且仍然可以用帶噪聲的相位近似,這樣一來就是無關緊要的了,可以對上面的式子進一步處理:

這里是未知的,這里強行用了另一個約束:在沒有先驗的情況下,均勻分布信息量最大,也就是不確定性最大,這也符合沒有先驗之一預期,從而

上式簡化為

這里積分部分滿足Bessel的定義

零階Bessel可近似:

 近似的結果

利用Bessel近似表達似然函數

導數為零求解出幅度譜估計

恢復降噪的信號

從這一結果也可以看出X = 1/2Y + 1/2HY,總是有部分保留,ML衰減是較小的,也正因為如此,ML估計器基本不單獨使用,需要配合其他模型使用:如利用語音不存在概率

  B-功率譜減

與ML估計器不同,這里不再假定是確定信號,而是隨機信號。 

既然是隨機信號,就有統計信息。因此給出假設:噪聲、語音信號的DFT不相關,且都服從零均值的高斯分布。從而得出Y概率密度

容易估計幅度譜

得到恢復的音頻

這就是功率譜減,即(γ為后驗信噪比)

  C-維納濾波

對於維納濾波器

變換一下形式

濾波器是功率譜減的級聯,因此衰減最大。

總計一下:按衰減程度由大到小,關系依次是:維納濾波>功率譜減>最大似然估計

二、貝葉斯估計 BAYESIAN ESTIMATORS

   A-MMSE幅值估計器

基於短時頻譜幅值的方法有個專業術語:,最優幅度譜估計:

根據聯合密度

得到最優估計器

看着感覺跟Wiener濾波器一回事,其實是有區別的:1)Wiener中,X = HY,假設有線性關系,這里沒有線性這一約束,也就是說這里的估計器可以是非線性的; 2)維納的MMSE是復頻譜最優,而此處的MMSE是幅度譜最優

同樣是為了簡化,引入約束1:各個頻點的DFT系數相互獨立:

這樣一來求解問題簡化為:

由於復信號Y是關於Xk和theta的函數,難以直接求取,只要利用聯合分布積分處理即可,也就是

 這樣一來求解紅框里的兩個方程就可以得出理論解。這里引入約束2:Y是兩個零均值的復高斯隨機變量之和

 則

這里用到復高斯概率密度的性質:

如果:

 且兩高斯分布:其模值為瑞利分布,相位為均勻分布,且二者獨立,證明可以參考這里。從而

事實上,至此完成了問題的求解,得到Xk的估計。但牛人們非要給一個更簡潔的表達式,這里直接給出結果: 

具體參數的定義,直接引用原文:

理論模型搭建完成,甚至得出了更簡潔的形式,距離應用只差一步——參數的近似估計。文中的基本方法有兩個:

1-Maximum-Likelihood Method

利用多幀信號:,求解似然方程

容易得出估計(因為是非零,所以max(估值,0)修正一下)

從而有

2-Decision-Directed Approach

根據定義

進一步寫成

一個常規的思路是分兩邊看,借助遞歸思想,因為:

得出遞歸的更新公式

至此,完成了MMSE從理論到應用的整個過程。

  B-MMSE復數估計器

上面是幅值估計,相位用的是帶噪信號的相位,可不可以直接對復信號利用MMSE進行估計呢?

求解問題轉化為:分別利用MMSE求解幅值、相位的最優解,幅值已解決,直接分析相位

可以得出,所以帶噪信號的相位是干凈信號相位在MMSE下的最優解。

  C-對數MMSE估計器

求解思路與幅值的MMSE完全相同,不同的是利用對數的差異性

首先帶來一個問題:為什么要用Log-MMSE?個人理解是logx - logy = logx/y,min|x/y|等價於min(x-y)2 s.t. y2 = c,c為常數。log相比於直接MMSE,保證干凈信號幅值不變(不失真)的前提下,誤差最小化,有點類似維納濾波與LCMV之間的關系。理論上直接求解估值

無法直接求解,利用矩量簡化求解

其中

跟MMSE求解一個思路,至此完成求解。但牛人們也希望簡化

從而實現簡化求解

vk, λk跟上面的定義一樣,進一步簡化

參數估計與MMSE中的思路完全一致,至此完成了求解以及實際應用的實現,其中積分部分也可以利用級數展開來簡化

Log-MMSE比MMSE抑制性更好

  D-pTH-POWER SPECTRUM-P階求解

先說結論:p階是更廣義的形式,Linear MMSE是它的特例,Log-MMSE也可以用p階來實現逼近

下面理論分析一下,給出准則函數

得出最優估計

都是一樣的套路:不能直接求解,轉化問題

大牛們求解的結果

具體參數求解同MMSE中的方法。

  E-非高斯分布MMSE估計器

上面的DFT系數分布,都假設為高斯分布,實際情況是分布可能更接近其他分布(按頻點統計):如拉普拉斯、伽馬分布等等,這就需要考慮其他概率模型

一個合理的約束:DFT系數實部、虛部統計獨立。這樣互不相干,可以分別得出MMSE估計器,再進行拼接:

其他思路都是一樣的,就是最后解方程一般人解不動...說一下思路:

根據貝葉斯定理

同樣只要估計出P(Y|X)和P(Y)就完成求解

從而得出估計器,完成求解

大牛總是可以簡化問題的,雖然這次的簡化好像也不漂亮:

其中

以上是基於Gamma分布的推導,這里只是提供了一個籠統的思維框架。放在具體問題,需要:統計實驗數據,並估計概率模型→基於合理的概率模型,得到用來增強的估計器

 

三、最大后驗估計 MAXIMUM a POStErIOrI (MAP) ESTIMATORS 

  A-幅值、相位估計器

准則函數

利用貝葉斯准則

分母不影響參數的估計,忽略

約束來了:1)DFT系數實部、虛部都是高斯分布;2)二者統計獨立,從而有

這樣一來,求解就容易了

偏導為零,得出估計器

實際應用中具體參數的估計,與上面的思路都是一致的。

  B-幅值估計器

只估計幅值:

貝葉斯准則

忽略分母

利用

並借助A中的兩個表達式,得出估計

其中

與ML准則估計器中的思路一樣,對Bessel近似處理

得出

 

從而得出估計器

  C-調參的建議

這一節是看到這里想到的,注意觀察A、B兩個估計器

自己突發奇想,估計最多就水個水論文用得上,放在這里-感興趣拿走。所以一個自然的思路是將他們推而廣之:

α是可以調節的參數。

ML、MMSE、MAP三種估計器

1)其實ML可以理解成均勻分布的貝葉斯,這個時候的先驗知識為零,通常貝葉斯假設高斯、拉普拉斯等分布(如幅值),這就引入了先驗知識,如果這個先驗知識有效,理論上效果應該比ML更好;這就像回歸中的應用:無約束=均勻分布→最小二乘,高斯分布→Ridge回歸,拉普拉斯分布→Lasso回歸。

2)MMSE是基於統計平均的貝葉斯估計,注意它與Wiener是有區別的,雖然都基於均方誤差最小准則;

3)MMSE找的是的均值,即,而MAP准則找的是的最大值。

 

四、利用不存在概率  INCORPORATING SPEECH ABSENCE PROBABILITY IN SPEECH ENHANCEMENT

其實就是信息融合,也就是Boosting的思想:兩個弱分類器,組合一個強分類器,兩個弱增強器,組合一個強增強器。不多說了,不過書中將這點應用的還不夠深入

組合

關於此部分的更多內容參考這里


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM