論文翻譯:2020_Acoustic Echo Cancellation With The Dual-Signal Transformation Lstm Network


論文地址:聲學回聲消除與雙信號變換LSTM網絡

預訓練模型:https://github.com/breizhn/DTLN-aec

論文代碼:https://github.com/breizhn/DTLN

博客作者:


摘要

  本文將雙信號變換LSTM網絡(dual-signal transformation LSTM network,DTLN)應用於實時聲學回聲消除(AEC)任務。DTLN在堆疊網絡方法中結合了短時傅里葉變換和learned 特征表示,從而可以在時頻和時域中進行可靠的信息處理,其中還包括相位信息。該模型在真實和合成的回聲場景中訓練60小時。訓練設置包括多語種語音,數據增強,額加噪音和混響,以創建一個模型,該模型應能很好地推廣到各種現實世界中。DTLN方法可在干凈和嘈雜的回聲條件下產生最先進的性能,從而有效減少聲回聲和額外的噪聲。 該方法的平均意見得分(MOS)優於AEC挑戰基線0.30。

索引詞:AEC, real-time, deep learning, audio, voicecommunication

1  引言

 

2  方法

2.1  問題公式化 

  對於聲學回聲消除系統,通常可以使用兩個輸入信號,即麥克風信號$y(n)$和遠端麥克風信號$x(n)$。 可以將近端麥克風信號描述為以下信號的組合:

$$公式1:y((n)=s(n)+v(n)+d(n)$$

其中$s(n)$是近端語音信號,$v(n)$是可能的近端噪聲信號,$d(n)$對應於回聲信號,它是遠端麥克風信號$x(n)$與傳輸路徑的脈沖響應$h(n)$的卷積。傳輸路徑是由音頻設備的緩沖產生的系統延遲、揚聲器與放大器的結合特性以及近端揚聲器和近端麥克風之間的傳遞函數的組合。 聲學回聲場景如圖1所示。所需信號是近端語音信號$s(n)$,而所有其他信號部分都應刪除。 此任務是音頻源分離任務。 如果只有遠端信號和噪聲信號存在,那么期望的信號就是安靜。

 圖1  帶有附加噪聲的回聲場景說明

2.2  適用於AEC的DTLN模型

  在Interspeech 2020的DNS挑戰[12]的背景下,開發了雙信號轉換LSTM網絡(DTLN)[15]以減少嘈雜語音混合物中的噪聲。 DTLN方法適用於AEC任務(DTLN-aec1),下面將進行介紹。

  該網絡由兩個separation cores(分離核心)組成。 每個separation cores都有兩個LSTM層和一個全連接層,並通過Sigmoid激活函數來預測masks(掩模)。 第一 separation cores 由近端和遠端麥克風信號的串聯歸一化對數功率譜fed。 每個麥克風信號分別被instant layer normalization(瞬時層歸一化,iLN),以解決level變化問題。Instant layer normalization類似於standard layer normalization [20],其中每個幀都單獨歸一化,但不隨時間累積統計信息。 該概念在[21]中作為channel-wise layer標准化引入。 第一core預測 時頻mask,該時頻mask應用於近端麥克風信號的非歸一化幅度STFT。 使用原始近端麥克風信號的相位,通過逆FFT將估計的幅度轉換回時域。

  第二個core使用通過1D-Conv圖層創建的learned特征表示。 這種方法的靈感來自[9,22]。core被fed先前預測信號的歸一化特征表示和遠端麥克風信號的歸一化特征表示。 為了將兩個信號都轉換到時域,應用了相同的權重,但是分別使用iLN進行歸一化,以實現每個表示形式的單獨scaling(縮放)和bias(偏置)。 將第二core的預測掩碼與第一核的輸出的未歸一化特征表示相乘。 通過1D-Conv層將該估計的特征表示轉換回時域。 為了重建連續時間信號,使用重疊相加過程。 模型架構如圖2所示。

圖2 提出的DTLN-aec模型體系結構。左邊的處理鏈顯示第一個separation core利用STFT信號變換(近端和遠端麥克風信號的split in segmentation和FFT),右邊的構建塊代表第二個core,將基於1D-Conv層的學習特征轉換應用於第一個core的輸出和segmented 遠端麥克風信號。

  對於回聲消除任務,選擇了32ms的幀長和8ms的幀偏移。FFT的大小是512,學習的特征表示的大小也是512。由於從語音中去除語音和噪聲非常困難,與[15]中相當小的模型相比,每層選擇512個LSTM單元。因此,當前模型的參數總數為10.3M。此外,還對每層具有128和256個單位的模型進行了訓練,以探索模型性能如何隨size 變化。

2.3  數據集和數據集准備

  通過挑戰提供了兩個訓練數據集,一個是合成數據,一個是真實記錄。合成數據集是從為[12]創建的數據集派生出來的。該數據集包括10000個示例,其中包含單端語音、雙端語音、近端噪聲、遠端噪聲和各種非線性失真情況,其中每個示例包含遠端語音、回波信號、近端語音和近端麥克風信號。前500個例子包含了來自演講者的數據,這些演講者的數據不包含在任何其他測試數據集中。該數據集將用於儀器評估,並被稱為雙講測試集。有關更多詳細信息,請參閱描述AEC挑戰的論文[16]。對於訓練,只使用遠端信號和回聲信號,並將其切割成4s的塊。真實數據集由不同的真實環境和不同設備捕獲的信號組成。[16]中提供了有關該數據的詳細信息。因此,在這個數據集中,只有遠端信號和回波信號被用在4s的塊中。對於使用P.808框架的評估,挑戰組織者提供了一個盲測試集。盲測試集由大約800個錄音組成,這些錄音被划分為一個干凈且有噪聲的子集。

  從為[23]收集的多語種數據中選擇干凈的語音作為近端信號。數據集包括法語、德語、意大利語、普通話、英語、俄語和西班牙語。原始數據的各種來源如[23]所述。德國的數據因質量差而被排除在外。語音信號被分割成持續時間為4s的樣本。RMS小於或等於零的樣本被丟棄。舍入誤差可能導致RMS小於零。作為排除噪聲信號的附加機制,每個文件由[15]中提出的語音增強模型處理,通過從噪聲信號中減去估計的語音信號來估計語音和噪聲信號。如果信噪比低於5db,則丟棄語音文件。最后,從每種語言中抽取20小時來創建120小時的多語言語音數據集。

  為了覆蓋回聲場景中具有高方差的噪聲類型,我們使用了[23]提供的噪聲語料庫。和以前一樣,噪聲文件被切割成4秒鍾的樣本,並且每個RMS小於或等於零的樣本被丟棄。此外,還添加了來自MUSAN語料庫[24]的器樂(同樣,經過4s分割)。這導致大約140小時的噪音。

  最后,為了建立反映潛水員混響量影響的真實回波場景,使用了為[25]收集的脈沖響應(IR)數據集。數據集包含來自各種來源的真實脈沖響應,如[26、27、28]和基於圖像方法的模擬脈沖響應[29]。對於每個脈沖響應,確定直接路徑的起點,並將其設置為[19]中建議的位置0。

2.4  訓練和數據增強

 

2.5  基線系統

 

2.6  客觀和主觀評價

 

3  結果

4 總結


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM