時頻掩蔽技術。
掩蔽效應
聲掩蔽(auditory masking)是指一個聲音的聽閾因另一個聲音的存在而上升的現象。純音被白噪聲所掩蔽時,純音聽閾上升的分貝數,主要決定於以純音頻率為中心一個窄帶噪聲的功率。
聲掩蔽主要決定於以純音頻率為中心一個窄帶噪聲的功率。這個窄帶的頻率寬度是隨着純音頻率的不同而變化的,稱為臨界頻帶。在聽覺頻率尺度上,一個臨界頻帶的寬度等於1巴克。臨界頻帶的概念是美國科學家H.富來車在20世紀40年代提出來的。這些頻帶與聽覺濾波器有關。在頻率上一個強的低頻純音可掩蔽高頻純音。在時間上除了即時掩蔽外,還存在一個聲音可對它后面的聲音產生掩蔽,稱為前向掩蔽;一個聲音也可對它前面的聲音產生掩蔽,稱為后向掩蔽。復合純音的掩蔽比較復雜,與它的頻率組合與相位關系有關,有時產生“時間窗”效應,即在某一時段內產生的掩蔽很小。如果一側耳輸入信號,另一側耳輸入噪聲,則可在中樞產生掩蔽。
聲音信號大多數時候時非穩態的瞬時信號,聲壓級隨着時間變化很快,即強音后面跟着弱音,弱音后面又可能跟着強音。比較強的聲音往往會掩蔽隨后到來的較弱音。
【應用】掩蔽效應看來是噪聲對信號的一種干擾,但也可在語音通信中加以利用。如數字語音壓縮通信中,可借助掩蔽效應使嵌入的加密密碼聽不出來,即不因密碼而降低通話質量。
【應用】根據掩蔽效應的原理,才衍生出電聲技術指標中的SNR(信號噪聲比),以及THD(諧波失真)等。當噪聲或者失真保持在一定范圍內的時候,對聽覺效果沒有影響。
一個較弱的聲音(被掩蔽音)的聽覺感受被另一個較強的聲音(掩蔽音)影響的現象稱為人耳的“掩蔽效應”。被掩蔽音單獨存在時的聽閾分貝值,或者說在安靜環境中能被人耳聽到的純音的最小值稱為絕對聞閾。
實驗表明,3kHz—5kHz絕對聞閾值最小,即人耳對它的微弱聲音最敏感;而在低頻和高頻區絕對聞閾值要大得多。在800Hz--1500Hz范圍內聞閾隨頻率變化最不顯著,即在這個范圍內語言可儲度最高。在掩蔽情況下,提高被掩蔽弱音的強度,使人耳能夠聽見時的聞閾稱為掩蔽聞閾(或稱掩蔽門限),被掩蔽弱音必須提高的分貝值稱為掩蔽量。
BSS中的時頻掩蔽
新近的研宄將語音分離看作一個有監督學習問題新近的研宄將語音分離看作一個有監督學習問題。
早期工作受到了計算聽覺場景分析中時頻掩蔽技術的啟發。在計算聽覺場景分析中的一個重要的目標是理想二值掩蔽(IBM)。
理想二值掩蔽在帶噪語音的時頻表示上標注出特定時頻單元是否被目標語音主導,即目標語音的能量是否高於噪聲的能量。根據人類聽覺系統的掩蔽效應,時間、頻率相近的(在同一個時頻單元內的)兩個聲音信號中,能量低的那個信號會被能量高的那個掩蔽,聽覺系統無法感知到被掩蔽掉的信號。利用理想二值掩蔽去除噪聲主導的部分,人們就無法感知到噪聲的存在了。
當把理想二值掩蔽作為計算目標時,語音分離就變成了一個二元分類問題。在訓練的時候,把理想二值掩蔽作為訓練目標,測試時再用訓練好的模型來預測理想二值掩蔽。理想二值掩蔽是有監督的語音分離研究中使用的第一個訓練目標。
汪德亮等人系統分析了以上的特征,使用拉索(Lasso)方式選擇出了對語音分離最有效的特征組合為:梅爾倒譜系數、相對譜變換感知線性預測系數、振幅調制譜和語音基音特征。
目前,在有監督的語音分離中,最常使用的輸入特征是語音短時傅里葉變換的振幅譜。
輸出信號:目標語音或各種時域掩蔽。
【理想二值掩蔽】:理想二值掩蔽是最早使用的訓練目標,在一個時頻單元里,如果局部信噪比超過一個閾值,理想二值掩蔽在這個單元是1,否則是0。理想二值掩蔽里面的非零值標注出了目標語音主導的時頻單元。
【理想浮值掩蔽】:
【整體模型】:
參考
https://blog.csdn.net/hi_zhengjian/article/details/78959194
https://blog.csdn.net/dream_bin123/article/details/80031447?utm_source=blogxgwz4