我醉了呀,當我花一天翻譯完后,發現已經網上已經有現成的了,而且翻譯的比我好,哎,造孽呀,但是他寫的是論文筆記,而我是純翻譯,能給讀者更多的思想和理解空間,並且還有參考文獻,也不錯哈,反正翻譯是寫給自己看的
文章方向:語音分離,
論文地址:Conv-TasNet:超越理想的語音分離時頻幅度掩蔽
博客地址:https://www.cnblogs.com/LXP-Never/p/14769751.html
論文代碼:https://github.com/naplab/Conv-TasNet | https://github.com/JusperLee/Conv-TasNet | https://github.com/kaituoxu/Conv-TasNet
摘要
單通道、與說話人無關的語音分離方法近年來取得了很大的進展。然而,這些方法的准確性、延遲和計算代價仍然不夠。之前的大部分方法都是通過混合信號的時頻表示來解決分離問題,這存在以下幾個缺點,比如信號相位和幅度的解耦,語音分離時頻表示的次優性,以及計算譜圖時的長時間延遲。為了解決這些缺點,我們提出了一種全卷積時域音頻分離網絡(Conv-TasNet),這是一種端到端時域語音分離的深度學習框架。Conv-TasNet使用一個線性編碼器來生成語音波形,優化的語音波形可以分離單獨的說話人聲音。說話人聲音分離是通過對編碼器輸出應用一組加權函數(mask)來實現的。然后使用線性解碼器將修改的編碼器表示反轉回波形。使用由堆疊的一維擴張卷積塊組成的時間卷積網絡計算mask,這使得網絡可以對語音信號的長期依賴性進行建模,同時保持較小的模型尺寸。本文所提出的Conv-TasNet系統在分離兩個和三個說話人混合語音時顯着優於先前的時頻掩蔽方法。此外,從客觀失真測量和聽者主觀質量評價來看,Conv-TasNet在雙說話人語音分離中優於幾種理想的時頻幅度掩模。最后,Conv-TasNet具有更小的模型尺寸和更短的最小延遲,使其成為離線和實時語音分離應用的合適解決方案。因此,本研究為實現真實語音處理技術的語音分離系統邁出了重要的一步。
索引術語:源分離,單通道,時域,深度學習,實時
1 引言
在真實的聲學環境中,穩健的語音處理通常需要自動語音分離。由於這個研究課題對語音處理技術的重要性,已經有許多方法被提出來解決這個問題。然而,語音分離的准確性,特別是對新說話者,仍然不夠。
大多數之前的語音分離方法都是在基於混合信號的時頻(T-F,或譜圖)表示,這些時頻表示是使用短時傅立葉變換(STFT)從波形中估計出來的。 在T-F域的語音分離方法旨在從混合頻譜中近似出單個源的干凈頻譜。可以通過使用非線性回歸技術直接將混合頻譜中的每個源的頻譜近似表示出來,其中將干凈頻譜作為訓練目標[2]-[4]。或者,可以對每個源估計一個加權函數(也就是掩碼,或稱掩膜,mask)來乘以混合頻譜中的每個T-F bin來恢復單個源。近年來,深度學習通過提高掩碼估計[5]-[12]的精度,大大提高了時頻mask方法的性能。在直接法和mask估計法中,每個聲源的波形都是利用估計的每個聲源的幅值譜,再加上混合語音的相位或修正相位 經過短時傅里葉反變換(iSTFT)來計算的。
雖然時頻掩蔽仍然是最常用的語音分離方法,但該方法存在一些缺點。
- 第一:短時傅里葉變換是一種通用的信號變換,對於語音分離未必是最優的。
- 第二:精確重建純凈聲源的相位是一個非常重要的問題,錯誤的相位估計會給重建音頻的精度帶來一個上界。這一問題很明顯,因為即使將理想的純凈幅度譜應用於混合物,源的不完全重建精度。雖然相位重建方法可以緩解[11],[13],[14]的問題,但該方法的性能仍然不是最優的。
- 第三:成功地從時頻表示中分離源信號,需要對混合信號進行高分辨率的頻率分解,這需要一個較長的時間窗口來計算短時傅里葉變換。這一措施會增加系統的最小延遲,這限制了它在實時、低延遲應用程序(如電信和可聽設備)中的適用性。例如,在大多數語音分離系統中,STFT的窗口長度至少為32 ms[5],[7],[8],而在音樂分離應用中,STFT的窗口長度甚至更大,這需要更高分辨率的頻譜(高於90 ms)[15],[16]。
由於這些問題都是在時頻域內表述分離問題時產生的,因此一個合理的方法是通過直接在時域內表述分離來避免對聲音的幅度和相位進行解耦。以往的研究通過獨立分量分析(ICA)[17]和時域非負矩陣分解(NMF)[18]等方法探索了時域語音分離的可行性。然而,這些系統的性能無法與時頻方法的性能相比,特別是在擴展和推廣到大數據的能力方面。另一方面,一些最近的研究探索了深度學習的時域音頻分離[19]-[21]。所有這些系統的共同想法是用數據驅動的表示來取代特征提取的STFT步驟,該表示與端到端訓練范式共同優化。這些表示和它們的逆變換設計來顯式地代替STFT和iSTFT。或者,特征提取和分離可以隱式地合並到網絡架構中,例如使用端到端卷積神經網絡(CNN)[22],[23]。這些方法在如何從波形中提取特征和分離模塊的設計方面是不同的。[19]的前端采用離散余弦變換(DCT)驅動的卷積編碼器。然后通過將編碼器特征傳遞給多層感知器(MLP)來執行分離。波形的重建是通過反向編碼器操作實現的。在[20]中,分離被合並到U-Net 1-D CNN架構[24]中,而沒有明確地將輸入轉換為類似光頻譜的表示。然而,這些方法在大型語音語料庫(如[25]中引入的基准)上的性能還沒有經過測試。另一種方法是時域音頻分離網絡(TasNet)[21],[26]。在TasNet中,混合波形采用卷積編碼器-解碼器架構建模,該架構包括一個對其輸出具有非負約束的編碼器和一個用於將編碼器輸出反化為聲音波形的線性解碼器。這種框架類似於ICA方法,當使用非負混合矩陣[27]時,半非負矩陣分解方法(semi-NMF)[28],其中基信號是解碼器的參數。TasNet中的分離步驟是通過為每個時間步的編碼器輸出找到每個源的加權函數(類似時間頻率掩藏)來完成的。研究表明,TasNet已經取得了比以往各種T-F域系統更好或更接近的性能,顯示了它的有效性和潛力。
雖然TasNet在因果和非因果實現中都優於以前的時頻語音分離方法,但在原始TasNet中使用深度長短期記憶(LSTM)網絡作為分離模塊,極大地限制了其適用性。首先,在編碼器中選擇較小的內核大小(即語音幀長),增加了編碼器輸出的長度,這使得LSTM的訓練難以管理。其次,深度LSTM網絡中大量的參數顯著增加了其計算成本,限制了其在可穿戴聽力設備等低資源、低功耗平台上的適用性。我們將在本文中說明的第三個問題是由LSTM網絡的長時間依賴性引起的,這常常導致分離精度不一致,例如,當改變混合的起始點時。為了減輕以前TasNet的局限性,我們提出了全卷積TasNet (Convc -TasNet),該TasNet在處理的所有階段都只使用卷積層。由於時序卷積網絡(TCN)模型[29]-[31]的成功,Conv-TasNet使用堆疊的膨脹一維卷積塊來替代深度LSTM網絡的分離步驟。卷積的使用允許對連續幀或片段進行並行處理,從而大大加快分離過程,也顯著減少了模型的大小。為了進一步減少參數的數量和計算量,我們用深度可分離卷積[32],[33]代替原有的卷積運算。我們表明,通過這些修改,在因果和非因果實現中,Conv-TasNet比以前的LSTM-TasNet顯著提高了分離精度。此外,無論是在信號失真比(SDR)還是主觀評價(mean opinion score, MOS)指標上,Conv-TasNet的分離精度都超過了理想時頻幅掩模(包括理想二進制掩模(IBM[34])、理想比例掩模(IRM[35],[36])和類Winener濾波掩模(WFM[37])的性能。
本文的其余部分組織如下。我們在第二節介紹了所提出的Conv-TasNet,在第三節描述了實驗過程,在第四節展示了實驗結果和分析。
2 卷積時域音頻分離網絡
全卷積時域音頻分離網絡(Conv-TasNet)由三個處理階段組成,如圖1(A)所示:編碼器、分離和解碼器。首先,利用編碼器模塊將混合波形的短片段轉換為中間特征空間中的相應表示。然后,使用該表示用於在每個時間步中估計每個源的乘法函數(mask)。最后,解碼器模塊通過轉換掩蔽之后的編碼器特征來重建源波形。我們將在本節中詳細描述每個階段。
A 時域語音分離
單通道語音分離的問題可以通過從給定混合的離散波形$x(t)\in R^{1*T}$中估計C個源信號$s_1(t),...,s_c(t)\in R^{1*T}$來公式化:
$$公式1:x(t)=\sum_{i=1}^Cs_i(t)$$
在時域音頻分離中,我們的目標是從$x(t)$中直接估計$s_i(t),\ i=1,...,C$。
B 卷積編碼器-解碼器
輸入混合聲音可以被分成長度為$L$的重疊幀,由$x_k\in R^{1*L}$表示,其中$k=1,...,\hat{T}$表示幀索引,$T$表示輸入中幀的總數。通過一維卷積運算,$x_k$被轉換成二維表示$w \in R^{1*N}$,可以使用矩陣乘法表示(從現在開始去掉索引$k$):
$$公式2:w=H(xU)$$
其中$U\in R^{N*L}$包含N個向量(編碼器基函數),每個向量長度為$L$,$H(·)$是可選的激活函數。在[21][26]中,$H(·)$是ReLU,用來確保輸出非負。解碼器使用一維轉置卷積運算生成重構波形,該運算可以被重新表述為另一個矩陣乘法:
$$公式3:\hat{x}=wV$$
其中,$\hat{x}\in R^{1*L}$為$x$的重構,$V \in R^{N*L}$中的行是解碼器基函數,每一行的長度為$L$。將重構的重疊部分累加在一起生成最終波形。
盡管我們將編碼器/解碼器操作重新表述為矩陣乘法,但使用術語“卷積自動編碼器”,因為在實際模型實現中,卷積和轉置卷積層可以更容易地處理段之間的重疊,從而實現更快的訓練和更好的收斂(對於我們的Pytorch實現,這可能是由於全連接層和一維(轉置)卷積層中的不同auto-grad機制)。
C 估計分離掩模
每一幀的分離是通過估計C個掩碼來實現的$m_i \in R^{1*n},\ i=1,...,C$,其中$C$是混合中的說話人數量。掩模向量$m_i$的約束條件是$m_i \in [0,1]$。然后將對應的掩模$m_i$乘以混合表示$w$,得到每個聲源的表示$d_i \in R^{1*N}$:
$$公式4:d_i=w\odot m_i$$
其中$\odot $表示逐元素乘法。每個聲源$\hat{s}_i,\ i=1,...,C$的波形由解碼器重建:
$$公式5:\hat{s}_i=d_iV$$
基於編碼器—解碼器體系結構可以完美地重構輸入的混合信號這一假設,有些文獻應用了[21],[26]中的單位求和約束$\sum_{i=1}^C m_i= 1$。在第IV-A節中,我們將考察放松這種統一求和約束對分離精度的影響。
D 卷積分離模塊
受時間卷積網絡(TCN)[29]–[31]的啟發,我們提出了一個全卷積分離模塊,它由堆疊的一維擴張卷積塊組成,如圖1(B)所示。TCN在各種序列建模任務中替代了RNNs。TCN中的每一層都由具有遞增擴張因子的一維卷積塊組成。擴張因子以指數方式增加,以確保足夠大的時間上下文感受野,從而利用語音信號的長距離相關性,如圖1(B)中不同顏色所示。在Conv-TasNet中,$M$個擴張因子分別為$1,2,4,...,2^{M-1}$的卷積塊重復$R$次。每個塊的輸入都進行了相應地零填充,以確保輸出長度與輸入長度相同。TCN的輸出被傳遞到一個核大小為1的卷積塊(1×1 Conv塊,也稱為逐點卷積),用於估計掩碼。1×1 Conv模塊和一個激活函數一起估計$C$個目標源的$C$掩碼向量。
圖1(C)展示了每個一維卷積塊的設計。一維卷積塊的設計遵循[38],其中應用了residual path和 skip-connection path:一個塊的residual path用作下一個塊的輸入,所有塊的 skip-connection path相加,作為TCN的輸出。為了進一步減少參數的數量,在每個卷積塊中使用depthwise separable Convolution(深度可分離卷積)($S-Conv(·)$)來代替標准卷積。深度可分離卷積(也稱為可分離卷積)已被證明在圖像處理任務[32]、[33]和神經機器翻譯任務[39]中是有效的。深度可分離卷積算子將標准卷積運算分解為兩個連續運算,深度卷積($D-Conv(·)$)后接點卷積($1×1\ Conv(·)$):
$$公式6:D-\operatorname{Conv}(\mathbf{Y}, \mathbf{K})=\operatorname{concat}\left(\mathbf{y}_{j} \circledast \mathbf{k}_{j}\right), j=1, \ldots, N$$
$$公式7:S-\operatorname{con} v(\mathbf{Y}, \mathbf{K}, \mathbf{L})=D-\operatorname{Conv}(\mathbf{Y}, \mathbf{K}) \circledast \mathbf{L}$$
其中$Y \in R^{G*M}$是$S-Conv(·)$的輸入,$K \in R^{G*P}$是大小為$P$的卷積核,$y_j \in R^{1*M}$和$k_j \in R^{1*P}$分別是矩陣$Y$和$K$的行,$L \in R^{G*H*1}$是大小為1的卷積核,和$\circledast$表示卷積運算。換言之,D-Conv(·)運算將輸入$Y$的每一行與矩陣$K$的對應行和1× 1−Conv塊線性變換特征空間。與核大小為$\hat{K} \in R^{G*H*P}$的標准卷積相比,深度可分離卷積只包含$G*P+G*H$個參數,當$H>>P$時,模型尺寸減小了$\frac{H*P}{H+P}\approx P$的因子。
在第一個1×1 Conv和D-Conv塊之后分別加入激活函數和歸一化操作。激活函數使用是參數校正線性單位(PReLU) [40]:
$$公式8:P R e L U(x)=\left\{\begin{array}{ll}
x, & \text { if } x \geq 0 \\
\alpha x, & \text { otherwise }
\end{array}\right.$$
其中$\alpha \in R$是控制整流器負斜率的可訓練標量。網絡中歸一化方法的選擇取決於因果關系要求。對於非因果配置,我們根據經驗發現全局層歸一化(gLN)優於所有其他歸一化方法。在gLN中,特征在通道和時間維度上都被歸一化:
$$公式9:g L N(\mathbf{F})=\frac{\mathbf{F}-E[\mathbf{F}]}{\sqrt{\operatorname{Var}[\mathbf{F}]+\epsilon}} \odot \gamma+\beta$$
$$公式10:E[\mathbf{F}]=\frac{1}{N T} \sum_{N T} \mathbf{F}$$
$$公式11:\operatorname{Var}[\mathbf{F}]=\frac{1}{N T} \sum_{N T}(\mathbf{F}-E[\mathbf{F}])^{2}$$
其中$f_k \in R^{N*1}$是整個特征$F$的第k幀,$f_{t\leq k} \in R^{N*k}$對應於$k$幀的特征$[f_1,…,f_k]$,並且$\gamma ,\beta \in R^{N*1}$是可訓練的參數。為了確保分離模塊對於輸入的縮放不敏感,先將選擇的歸一化方法應用到編碼器的輸出$w$上,然后再將該結果饋送到分離模塊。
在分離模塊的開頭,添加了一個線性1×1 Conv塊作為瓶頸層。 該塊決定了后續卷積塊的輸入路徑和剩余路徑中的通道數。 例如,如果線性瓶頸層具有B通道,則對於具有H通道且內核大小為P的一維卷積塊,第一個1×1-Conv塊和第一個D-Conv塊中的內核大小應為 分別為$O \in R^{B*H*1}$和$K \in R^{H*P} $,剩余路徑中的內核大小應為$L_{Rs} \in R^{H*B*1}$。跳過連接路徑中的輸出通道數可以與$B$不同,我們將該路徑中的內核大小表示為$L_{Sc}\in R^{H*Sc*1}$。
圖1.(A)TasNet系統的框圖。 編碼器將混合語音波形的一部分映射為高維表示,分離模塊為每個目標語音源計算掩碼。 解碼器從被掩蓋的特征中重建源波形。
(B)我們提出系統的流程圖。 一維卷積自動編碼器對波形建模,時間卷積網絡(TCN)分離模塊根據編碼器輸出估算掩碼。 TCN中的一維卷積塊中的不同顏色表示不同的擴張因子。
(C)一維卷積塊的設計。 每個塊由一個1×1-Conv和一個深度卷積(D-Conv)組成,在每個兩個卷積運算之間添加了激活函數和歸一化。 兩個線性1×1-Conv塊分別用剩余路徑和跳過連接路徑。
3 實驗程序
A 數據集
我們使用WSJ0-2mix和WSJ03mix數據集評估了我們的系統在兩人和三人語音分離問題上的性能[25]。從數據集的si_tr_s中的說話人中生成30個小時的訓練數據和10個小時的驗證數據。通過從“華爾街日報”數據集(WSJ0)中的不同說話人中隨機選擇語音並以介於-5 dB和5 dB之間的隨機信噪比(SNR)進行混合來生成混合語音。 以相同的方式生成5小時的測試集, 所有波形均重采樣到8 kHz。創建數據集的腳本可以在[42]中找到。
B 實驗配置
這些網絡在4秒的幀長上訓練了100個epoch。初始學習速率設置為1e-3。如果連續三個epoch驗證集的准確性沒有提高,學習率將減半。adam[43]被用作優化器。卷積自動編碼器中使用50%的步長(即連續幀之間50%的重疊)。訓練期間應用最大L2范數為5的漸變裁剪。。網絡的超參數如表1所示。Conv-TasNet網絡模型的Pytorch實現可在鏈接中找到。
表1:網絡的超參數
C 訓練目標
訓練端到端系統的目標是最大化尺度不變的源噪聲比(SI-SNR),它通常被用作源分離的評估指標,取代標准的源失真比(SDR) [5],[9],[44]。信噪比定義為:
$$公式15:\left\{\begin{array}{l}
\mathbf{s}_{\text {target }}:=\frac{\langle\hat{\mathbf{s}}, \mathbf{s}\rangle \mathbf{s}}{\|\mathbf{s}\|^{2}} \\
\mathbf{e}_{\text {noise }}:=\hat{\mathbf{s}}-\mathbf{s}_{\text {target }} \\
\text { SI-SNR }:=10 \log _{10} \frac{\| \mathbf{s}_{\text {target } \|^{2}}}{\left\|\mathbf{e}_{\text {noise }}\right\|^{2}}
\end{array}\right.$$
其中$\hat{s} \in R^{1*T}$和$s \in R^{1*T}$分別是估計的和原始的干凈源,並$||s||^2=<s,s>$表示信號功率。通過在計算之前將$\hat{s}$和$s$歸一化為零均值來確保尺度不變性。訓練期間應用話語級置換不變訓練(Utterance-level permutation invariant training,uPIT)來解決源置換問題[7]。
D 評估指標
我們將尺度不變信噪比改善(scale-invariant signal-to-noise ratio improvement,SI-SNRi)和信號失真比改善(signal-to-distortion ratio improvement, SDRi)作為分離精度的客觀衡量標准。SI-SNR在等式15中定義。表3至表5中報告的改進表明了原始混合物的附加值。除了失真度量,我們還使用主觀質量的感知評估(PESQ[45])和平均意見得分(MOS[46])來評估分離混合物的質量,方法是讓40名正常聽力受試者對分離混合物的質量進行評分。紐約市哥倫比亞大學的當地機構審查委員會批准了所有人體測試程序。
E 與理想時頻掩碼的比較
遵循[5]、[7]、[9]中的常見配置,使用窗口大小為32毫秒、幀移為8毫秒的漢寧窗STFT來計算大量時間-頻率掩碼。理想掩碼包括理想二進制掩碼(IBM)、理想比率掩碼(IRM)和類似維納濾波器的掩碼(WFM),它們對源$i$的定義如下:
$$公式16:I B M_{i}(f, t)=\left\{\begin{array}{l}
1,\left|\mathcal{S}_{i}(f, t)\right|>\left|\mathcal{S}_{j \neq i}(f, t)\right| \\
0, \text { otherwise }
\end{array}\right.$$:
$$公式17:\operatorname{IRM}_{i}(f, t)=\frac{\left|\mathcal{S}_{i}(f, t)\right|}{\sum_{j=1}^{C}\left|\mathcal{S}_{j}(f, t)\right|}$$
$$公式18:W F M_{i}(f, t)=\frac{\left|\mathcal{S}_{i}(f, t)\right|^{2}}{\sum_{j=1}^{C}\left|\mathcal{S}_{j}(f, t)\right|^{2}}$$
其中$S_i(f,t)\in C^{F*T}$是純凈源$i=1,...,C$的復值頻譜。
4 結果
圖2可視化了Conv-TasNet的所有內部變量,其中包含兩個重疊的說話人(以紅色和藍色表示)的一種示例混合聲音。編碼器和解碼器的基函數按照使用無加權對群法與算術平均值(UPGMA)方法發現的基函數的歐幾里得距離的相似性進行排序[47]。基函數顯示了出頻率和相位調諧的多樣性。根據每個說話人在每個時間點在相應基准輸出處的功率,對編碼器的表示進行着色,這說明了編碼器表示的稀疏性。如圖2所示,兩個說話人的估計掩碼與它們的編碼器表示非常相似,這可以抑制與干擾說話人相對應的編碼器輸出,並提取每個掩碼中的目標說話人。線性解碼器估計兩個說話人的分離波形,其基函數如圖2所示。分離的波形顯示在右側。
圖2 編碼器和解碼器基本功能、編碼器表示和兩個說話人混合樣本的源屏蔽的可視化。說話人以紅色和藍色顯示。編碼器表示根據每個基本功能和時間點上每個說話人的功率進行着色。基函數根據它們的歐幾里德相似性進行排序,並且在頻率和相位調諧方面表現出多樣性。
A 編碼器輸出的非消極性
使用整流線性非線性(ReLU)函數在[21],[26]中強制了編碼器輸出的非負性。該約束基於這樣的假設:僅當可以用基函數的非負組合表示混合波形和說話人波形時,才對編碼器輸出進行屏蔽操作,因為無邊界的編碼器表示可能會導致無邊界的屏蔽。但是,通過消除非線性函數H,可以做出另一個假設:對於混合物的無界但高度不完全表示,仍然可以找到一組非負掩碼來重構干凈的源。在這種情況下,表示的不完整至關重要。如果對於混合物以及對於光源僅存在唯一的重量特征,則不能保證掩碼的非負性。還要注意,在兩個假設中,我們都沒有對編碼器和解碼器基函數U和V之間的關系施加任何約束,這意味着它們沒有被迫完美地重構混合信號。明確確保自動編碼器屬性的一種方法是通過選擇V作為U的偽逆(即最小二乘重構)。編碼器/解碼器設計的選擇會影響掩碼估計:對於自動編碼器,必須滿足單位求和約束;否則,不嚴格要求單位求和約束。為了說明這一點,我們比較了五種不同的編碼器-解碼器配置:
1)具有偽逆(Pinv)作為解碼器的線性編碼器,即$w=x(V^TV)^{-1}V^T$和$\hat{x}=wV$,具有用於掩碼估計的Softmax函數。
2)線性編碼器和解碼器,其中$w = xU$和$\hat{x}= wV$,具有Softmax或Sigmoid函數,用於掩碼估計。
3)具有ReLU激活功能的編碼器和線性解碼器,其中$w = ReLU(xU)$和$\hat{x}= wV$,具有Softmax或Sigmoid函數用於掩碼估計。
表3中不同配置的分離精度表明,偽逆自動編碼器導致最差的性能,表明顯式自動編碼器配置不一定提高該框架中的分離分數。所有其他配置的性能相當。因為具有Sigmoid功能的線性編碼器和解碼器獲得了比其他方法稍好的精度,所以我們在以下所有實驗中使用了這種配置。
表3 不同系統配置的分離分數
B 優化網絡參數
我們根據不同的網絡參數,評估了Conv-TasNet在兩個說話人分離任務上的性能。 表2顯示了具有不同參數的系統的性能,從中可以得出以下結論:
- i)編碼器/解碼器:增加編碼器/解碼器中基本信號的數量會增加基本信號的不完全性並提高性能。
- ii)一維卷積塊中的超參數:可能的配置由小瓶頸B和卷積塊H中的大量通道組成。這與[48]中的觀察結果相符,其中發現卷積塊和瓶頸H / B之比最好在5附近。增加跳過連接塊中的通道數可改善性能,同時極大地增加模型尺寸。因此,我們選擇了一個小的跳過連接塊作為性能和模型大小之間的折衷方案。
- iii)一維卷積塊的數量:當接收場相同時,更深的網絡可能會導致更好的性能,這可能是由於模型容量增加了。
- iv)接收場的大小:增加接收場的大小會導致更好的性能,這表明對語音信號中的時間相關性進行建模的重要性。
- v)每個段的長度:較短的段長度始終可以提高性能。 請注意,最佳系統使用的濾波器長度僅為2 ms$(\frac{L}{f_s}=\frac{16}{8000}=0.002s)$,由於編碼器中的時間步長很大,因此很難訓練具有相同L的深LSTM網絡 輸出。
- vi)因果關系:使用因果配置會導致性能顯着下降。 該下降可能是由於因果卷積和/或層歸一化操作引起的。
表2:不同配置在Conv-TasNet中的效果
C Conv-TasNet與以往方法的比較
我們比較了Conv-TasNet與以前使用軟件無線電接口和軟件無線電接口的方法的分離精度。表4比較了Conv-TasNet和其他先進方法在同一個WSJ0-2mix數據集上的性能。對於所有系統,我們列出了文獻中報道的最佳結果。不同方法中的參數數量基於我們的實現,除了作者提供的[12]。表中缺失的值是因為研究中沒有報告這些數字,或者因為結果是用不同的STFT配置計算的。[26]中的前一個TasNet用(B)LSTM-TasNet表示。雖然BLSTMTasNet的性能已經超過了IRM和IBM,但與所有以前的方法相比,非因果的Conv-TasNet以顯著更小的模型大小,極大地提高了所有三種理想T-F掩碼的性能。
表4:與WSJ0-2MIX數據的其他方法的比較
表5比較了Conv-TasNet與其他系統在三人語音分離任務中的性能,該任務涉及WSJ0-3mix數據集。在軟件無線電領域,非因果Conv-TasNet系統明顯優於以前所有基於STFT的系統。雖然沒有關於三說話人分離因果算法的先驗結果,但因果Conv-TasNet甚至顯著優於其他兩個基於非因果短時傅立葉變換的系統[5],[7]。在線提供了兩個和三個說話人混合的Conv-TasNet因果和非因果實現的分離音頻示例[49]。
表5:與WSJ0-3MIX數據的其他系統比較
D Conv-TasNet主客觀質量評價
除了特別提款權和信噪比,我們還評估了分離語音的主觀和客觀質量,並與三種理想的時頻幅度掩碼進行了比較。表六顯示了Conv-TsaNet和IRM、IBM和WFM的PESQ得分,其中IRM的WSJ0-2mix和WSJ0-3mix數據集得分最高。然而,由於PESQ的目的是預測語音的主觀質量,因此人類質量評估可以被認為是基本事實。因此,我們進行了一項心理物理學實驗,在該實驗中,我們要求40名正常聽力受試者聽並評價分離出的語音的質量。由於人類心理物理學實驗的實際局限性,我們將Conv-TasNet的主觀比較局限於三種理想面罩中PESQ評分最高的理想比率面罩(IRM)(表6)。我們從雙說話人測試集(WSJ0-2mix)中隨機選擇了25種雙說話人混合聲音。我們通過確保所選的25個樣本的IRM和Conv-TasNet分離聲音的平均PESQ分數等於整個測試集的平均PESQ分數來避免可能的選擇偏差(表六和表七的比較)。每個話語的長度被限制在整個測試集平均值的0.5標准偏差之內。受試者被要求對干凈的話語、IRM分離的話語和Conv-TasNet分離的話語的質量進行評分,評分范圍為1到5 (1:差,2:差,3:一般,4:好,5:優秀)。首先給出干凈的話語作為最高可能得分(即5)的參考。然后,干凈的、IRM的和Conv-TasNet的樣本以隨機順序呈現給受試者。然后對40名受試者的25個話語的平均意見得分進行平均。
表6:PESQ在整個WSJ0-2MIX和WSJ0-3MIX測試集上的理想T-F蒙版和Conv-Tasnet的分數
圖3和表7顯示了人的主觀質量測試的結果,其中Conv-TsaNet的金屬氧化物半導體明顯高於IRM的金屬氧化物半導體(p < 1e-16,t-test)。此外,如圖3(C)所示,在25個測試話語的大部分中,Conv-TasNet優於IRM的主觀質量是一致的。這一觀察結果表明,對於Conv-塔斯克網絡分離的話語,佩斯克一直低估了最大似然比,這可能是由於佩斯克依賴於語音的幅度頻譜[45],這可能會產生較低的時域方法的分數。
圖3. WSJ0-2mix中分離話語的主觀和客觀質量評估。 (A)IRM,Conv-TasNet和純凈言語的平均意見得分(MOS,N = 40)。 Conv-TasNet明顯優於IRM(p <1e − 16,t檢驗)。 (B)與Conv-TasNet相比,IRM的PESQ得分更高(p <1e-16,t檢驗)。 誤差線表示單個言語的標准誤差(STE)(C)MOS對PESQ。 每個點表示一個混合語音,使用IRM(藍色)或Conv-TasNet(紅色)分隔。 Conv-TasNet的幾乎所有話語的主觀評分都高於其相應的PESQ分數。
表7:平均意見分數(MOS,N = 40)和PESQ對於來自WSJ0-2MIX測試集的25個選定的話語
E 處理速度比較
表8比較了LSTM-TasNet和因果Conv-TasNet的處理速度。速度被評估為系統分離混合物中每幀的平均處理時間,我們稱之為每幀時間(TPF)。TPF確定系統是否可以實時實現,這需要小於幀長度的TPF。
表8:因果LSTM-TASNet和CONV-TASNet的處理時間。速度是EV Alua TED作為SECTA SECTA A幀所需的平均時間(每幀的時間,TPF)
對於CPU配置,我們在英特爾酷睿i7-5820K CPU上測試了一個處理器的系統。對於GPU配置,我們將系統和數據預加載到Nvidia Titan Xp GPU中。具有中央處理器配置的LSTM-TasNet具有接近其幀長度(5毫秒)的TPF,這在只有較慢的中央處理器可用的應用中僅是勉強可接受的。此外,在LSTM-TsaNet中的處理是順序完成的,這意味着每個時間幀的處理必須等待前一個時間幀的完成,進一步增加了整個話語的總處理時間。由於Conv-TsaNet解耦了連續幀的處理,后續幀的處理不必等到當前幀完成,並允許並行計算的可能性。這個過程導致TPF比我們的中央處理器配置中的幀長度(2毫秒)小5倍。因此,即使使用速度較慢的CPU,Conv-TasNet仍然可以執行實時分離。
F LSTM-Tasnet對混合物起始點的敏感性
與語言處理任務不同,在語言處理任務中,句子決定了起始詞,因此很難為語音分離和增強任務定義一個通用的起始樣本或幀。因此,一個健壯的音頻處理系統應該對混音的起點不敏感。然而,我們根據經驗發現,因果LSTM-TasNet的性能對混合物的確切起點非常敏感,這意味着將輸入混合物移動幾個樣本可能會對分離精度產生不利影響。我們通過評估WSJ0-2mix測試集中每種混合物在不同輸入樣本移位情況下的分離精度,系統地檢驗了LSTM-TasNet和因果Conv-TasNet對混合物起始點的穩健性。s樣品的移動對應於在樣品s而不是第一個樣品開始分離。圖4(A)示出了兩個系統在具有不同輸入偏移值的相同混合示例上的性能。我們觀察到,不同於LSTM-TasNet,因果Conv-TasNet對輸入混合物的所有偏移值表現一致。我們進一步測試了整個測試集的整體穩健性,方法是計算每個混合物的標准差,並使用類似於圖4(A)的移動混合物輸入。圖4(B)中WSJ0-2mix試驗組中所有混合物的箱線圖顯示,因果Conv-TasNet在整個試驗組中的表現始終更好,這證實了Conv-TasNet對混合物起點變化的魯棒性。對這種不一致性的一種解釋可能是由於LSTM-TasNet中的順序處理限制,這意味着先前幀中的故障會累積並影響所有后續幀中的分離性能,而Conv-TasNet中連續幀的解耦處理減輕了偶然誤差的影響。
圖4.(A)作為混合物起點的函數,使用LSTM-TasNet和因果Conv-TasNet分離的示例混合物的SDRi。 Conv-TasNet的性能相對於起點更加一致且不敏感。 (B)WSJ0-2mix測試集中所有混合物中SDRi的標准偏差,起點不同。
G 基函數的性質
在TasNet中用卷積編碼器代替混合信號的STFT表示的動機之一是構建一個為語音分離而優化的音頻表示。為了闡明編碼器和解碼器表示的屬性,我們檢查了編碼器和解碼器的基函數(矩陣U和V的行)。圖5中示出了最佳非因果Conv-TasNet的基函數,其排序方式與圖2相同。每個濾波器的快速傅立葉變換幅度也以相同的順序顯示。如圖所示,大多數濾波器被調諧到較低的頻率。此外,它顯示了具有相同頻率調諧的濾波器表示該頻率的不同相位值。這種觀察可以通過低頻基函數的循環移位看出。這一結果表明,語音的低頻特征(如音調)以及相位信息的顯式編碼對於實現卓越的語音分離性能具有重要作用。
圖5.編碼器和解碼器基本函數及其FFT幅度的可視化。 基函數基於它們的成對歐幾里得相似度進行排序。
5 總結
在這篇文章中,我們介紹了全卷積時域音頻分離網絡(Conv-TsaNet),一個深入的時域語音分離學習框架。該框架解決了STFT域中語音分離的缺點,包括相位和幅度的解耦、用於分離的混合音頻的次優表示以及計算STFT的高延遲。這些改進是通過用卷積編碼器-解碼器結構代替STFT來實現的。Conv-TasNet中的分離是使用時間卷積網絡(TCN)架構以及深度可分離卷積運算來完成的,以解決深度LSTM網絡的挑戰。 我們的評估表明,即使使用目標說話人的理想時頻掩碼,Conv-TasNet的性能也遠勝於STFT語音分離系統。 此外,Conv-TasNet具有更小的模型尺寸和更短的最小延遲,這使其適用於低資源,低延遲的應用程序。
與定義明確的逆變換可以完美重建輸入的STFT不同,所提出的模型中的最佳性能是通過過完全線性卷積編碼器-解碼器框架實現的,而不保證輸入的完美重建。這一發現促使人們重新思考自動編碼器和源分離問題中的過完備性,這可能與過完備字典和稀疏編碼的研究有相似之處[51],[52]。此外,在第四章中對編碼器/解碼器基函數的分析揭示了兩個有趣的性質。首先,大多數濾波器被調諧到低聲學頻率(超過60%被調諧到低於1千赫的頻率)。我們使用數據驅動的方法發現,這種頻率表示模式大致類似於眾所周知的mel-frequency scale [53]以及哺乳動物聽覺系統中頻率的聽覺組織[54],[55]。此外,較低頻率的過度表達可能表明准確的音調跟蹤在語音分離中的重要性,類似於人類多音調感知研究中的報告[56]。此外,我們發現具有相同頻率調諧的濾波器明確地表達各種相位信息。相反,這一信息隱含在STFT運算中,其中實部和虛部分別只表示對稱(余弦)和不對稱(正弦)相位。信號相位值的這種顯式編碼可能是TasNet優於基於STFT的分離方法的關鍵原因。
高精度,短延遲和小尺寸的組合使Conv-TasNet成為離線和實時,低延遲語音處理應用(例如嵌入式系統,可穿戴式聽力和電信設備)的合適選擇。 Conv-TasNet還可以在其他音頻處理任務(例如多方通話者語音識別[57]-[60]和說話人識別[61],[62])中用作串聯系統的前端模塊。另一方面,Conv-TasNet的一些局限性必須加以解決,然后才能實現,包括對說話人的長期跟蹤以及對嘈雜和混響環境的泛化。由於Conv-TasNet使用固定的時間上下文長度,因此對單個說話人的長期跟蹤可能會失敗,尤其是在混合音頻中有較長的停頓時。另外,Conv-TasNet在嘈雜和混響條件下的泛化還必須進一步測試[26],因為時域方法更容易出現時間失真,這在混響聲學環境中尤其嚴重。在這種情況下,如果有多個麥克風可用,擴展Conv-TasNet框架以合並多個輸入音頻通道可能會證明是有利的。先前的研究表明,將語音分離擴展到多通道輸入[63]-[65]的好處,特別是在不利的聲學條件下以及當干擾說話人的數量很大(例如,超過3個)時。
總之,Conv-TasNet代表了實現語音分離算法的重要一步,並開辟了許多未來的研究方向,將進一步提高其准確性、速度和計算成本,最終使自動語音分離成為為現實世界應用而設計的每一種語音處理技術的共同和必要特征。
參考文獻
[1] D. Wang and J. Chen, “Supervised speech separation based on deep learning: An overview,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 26, no. 1, pp. 1702–1726, Oct. 2018.
[2] X. Lu, Y . Tsao, S. Matsuda, and C. Hori, “Speech enhancement based on deep denoising autoencoder.” in Proc. Interspeech, 2013, pp. 436–440.
[3] Y . Xu, J. Du, L.-R. Dai, and C.-H. Lee, “An experimental study on speech enhancement based on deep neural networks,” IEEE Signal Process. Lett., vol. 21, no. 1, pp. 65–68, Jan. 2014.
[4] Y . Xu, J. Du, L.-R. Dai, and C.-H. Lee, “A regression approach to speech enhancement based on deep neural networks,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 23, no. 1, pp. 7–19, Jan. 2015.
[5] Y . Isik, J. Le Roux, Z. Chen, S. Watanabe, and J. R. Hershey, “Singlechannel multi-speaker separation using deep clustering,” in Proc. Interspeech, 2016, pp. 545–549.
[6] D. Y u, M. Kolbæk, Z.-H. Tan, and J. Jensen, “Permutation invariant training of deep models for speaker-independent multi-talker speech separation,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2017, pp. 241–245.
[7] M. Kolbæk, D. Y u, Z.-H. Tan, and J. Jensen, “Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 25, no. 10, pp. 1901–1913, Oct. 2017.
[8] Z. Chen, Y . Luo, and N. Mesgarani, “Deep attractor network for singlemicrophone speaker separation,” inProc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2017, pp. 246–250.
[9] Y . Luo, Z. Chen, and N. Mesgarani, “Speaker-independent speech separation with deep attractor network,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 26, no. 4, pp. 787–796, Apr. 2018. [Online]. Available: http://dx.doi.org/10.1109/TASLP .2018.2795749
[10] Z.-Q. Wang, J. Le Roux, and J. R. Hershey, “Alternative objective functions for deep clustering,” inProc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2018, pp. 686–690.
[11] Z.-Q. Wang, J. L. Roux, D. Wang, and J. R. Hershey, “End-to-end speech separation with unfolded iterative phase reconstruction,” Interspeech, pp. 2708–2712, 2017.
[12] C. Li, L. Zhu, S. Xu, P . Gao, and B. Xu, “CBLDNN-based speakerindependent speech separation via generative adversarial training,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2018, pp. 711– 715.
[13] D. Griffin and J. Lim, “Signal estimation from modified short-time fourier transform,” IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-32, no. 2, pp. 236–243, Apr. 1984.
[14] J. Le Roux, N. Ono, and S. Sagayama, “Explicit consistency constraints for STFT spectrograms and their application to phase reconstruction.” in Proc. INTERSPEECH, 2008, pp. 23–28.
[15] Y . Luo, Z. Chen, J. R. Hershey, J. Le Roux, and N. Mesgarani, “Deep clustering and Conventional networks for music separation: Stronger together,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2017, pp. 61–65.
[16] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. Kumar, and T. Weyde, “Singing voice separation with deep u-net Convolutional networks,” in Proc. 18th Int. Soc. Music Inf. Retrieval Conf., 2017, pp. 23–27.
[17] S. Choi, A. Cichocki, H.-M. Park, and S.-Y . Lee, “Blind source separation and independent component analysis: A review,” Neural Inf. Process.— Lett. Rev., vol. 6, no. 1, pp. 1–57, 2005. 1266 IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, VOL. 27, NO. 8, AUGUST 2019
[18] K. Y oshii, R. Tomioka, D. Mochihashi, and M. Goto, “Beyond NMF: Time-domain audio source separation without phase reconstruction,” in Proc. Int. Soc. Music Inf. Retrieval, 2013, pp. 369–374.
[19] S. V enkataramani, J. Casebeer, and P . Smaragdis, “End-to-end source separation with adaptive front-ends,” in Proc. IEEE 52nd Asilomar Conf. Signals, Syst., Comput., 2018, pp. 684–688.
[20] D. Stoller, S. Ewert, and S. Dixon, “Wave-u-net: A multi-scale neural network for end-to-end audio source separation,” in Proc. Int. Soc. Music Inf. Retrieval, 2018, pp. 334–340.
[21] Y . Luo and N. Mesgarani, “TasNet: Time-domain audio separation network for real-time, single-channel speech separation,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2018, pp. 696–700.
[22] S.-W. Fu, T.-W. Wang, Y . Tsao, X. Lu, and H. Kawai, “End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully Convolutional neural networks,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 26, no. 9, pp. 1570–1584, Sep. 2018.
[23] S. Pascual, A. Bonafonte, and J. Serrà, “SEGAN: Speech enhancement generative adversarial network,” in Proc. Interspeech, 2017, pp. 3642– 3646.
[24] O. Ronneberger, P . Fischer, and T. Brox, “U-net: Convolutional networks for biomedical image segmentation,” in Proc. Int. Conf. Med. Image Comput. Comput.-Assisted Intervention, 2015, pp. 234–241.
[25] J. R. Hershey, Z. Chen, J. Le Roux, and S. Watanabe, “Deep clustering: Discriminative embeddings for segmentation and separation,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2016, pp. 31– 35.
[26] Y . Luo and N. Mesgarani, “Real-time single-channel dereverberation and separation with time-domain audio separation network,” in Proc. Interspeech, 2018, pp. 342–346.
[27] F.-Y . Wang, C.-Y . Chi, T.-H. Chan, and Y . Wang, “Nonnegative leastcorrelated component analysis for separation of dependent sources by volume maximization,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 32, no. 5, pp. 875–888, May 2010.
[28] C. H. Ding, T. Li, and M. I. Jordan, “Convex and semi-nonnegative matrix factorizations,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 32, no. 1, pp. 45–55, Jan. 2010.
[29] C. Lea, R. Vidal, A. Reiter, and G. D. Hager, “Temporal Convolutional networks: A unified approach to action segmentation,” in Proc. Eur . Conf. Comput. Vis., 2016, pp. 47–54.
[30] C. Lea, M. D. Flynn, R. Vidal, A. Reiter, and G. D. Hager, “Temporal Convolutional networks for action segmentation and detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2017, pp. 156– 165.
[31] S. Bai, J. Z. Kolter, and V . Koltun, “An empirical evaluation of generic Convolutional and recurrent networks for sequence modeling,” 2018, arXiv:1803.01271.
[32] F. Chollet, “Xception: Deep learning with depthwise separable Convolutions,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2017, pp. 1251–1258.
[33] A. G. Howard et al., “Mobilenets: EfficientConvolutionalneuralnetworks for mobile vision applications,” 2017, arXiv:1704.04861.
[34] D. Wang, “On ideal binary mask as the computational goal of auditory scene analysis,” in Speech Separation by Humans and Machines. Boston, MA, USA: Springer, 2005, pp. 181–197.
[35] Y . Li and D. Wang, “On the optimality of ideal binary time–frequency masks,” Speech Commun., vol. 51, no. 3, pp. 230–239, 2009.
[36] Y . Wang, A. Narayanan, and D. Wang, “On training targets for supervised speech separation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 22, no. 12, pp. 1849–1858, Dec. 2014.
[37] H. Erdogan, J. R. Hershey, S. Watanabe, and J. Le Roux, “Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks,” inProc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2015, pp. 708–712.
[38] A. V an Den Oord et al., “Wavenet: A generative model for raw audio,” in Proc. 9th ISCA Speech Syn. Workshop, 2016, p. 125. [39] F. Chollet, “Xception: Deep learning with depthwise separable Convolutions,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2017, pp. 1251–1258. [40] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers:Surpassing human-level performance on imagenet classification,” in Proc. IEEE Int. Conf. Comput. Vis., 2015, pp. 1026–1034.
[41] J. L. Ba, J. R. Kiros, and G. E. Hinton, “Layer normalization,” 2016, arXiv:1607.06450.
[42] “Script to generate the multi-speaker dataset using wsj0,” 2016. [Online]. Available: http://www.merl.com/demos/deep-clustering
[43] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” in Proc. Int. Conf. Lear . Represent., 2014. [Online]. Available: http://arxiv.org/abs/1412.6980
[44] E. Vincent, R. Gribonval, and C. Févotte, “Performance measurement in blind audio source separation,”IEEE Trans. Audio, Speech, Lang. Process., vol. 14, no. 4, pp. 1462–1469, Jul. 2006.
[45] A. W. Rix, J. G. Beerends, M. P . Hollier, and A. P . Hekstra, “Perceptual evaluation of speech quality (PESQ)—A new method for speech quality assessment of telephone networks and codecs,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2001, vol. 2, pp. 749–752.
[46] V ocabulary for Performance and Quality of Service, International Telecommunication Union (ITU), Geneva, Switzerland, ITU-T Rec. P .10, 2006.
[47] R. R. Sokal, “A statistical method for evaluating systematic relationship,” Univ. Kansas Sci. Bull., vol. 28, pp. 1409–1438, 1958.
[48] M. Sandler, A. Howard, M. Zhu, A. Zhmoginov, and L.-C. Chen, “MobileNetV2: Inverted residuals and linear bottlenecks,” inProc. IEEE Conf. Comput. Vision Pattern Recognit., 2018, pp. 4510–4520.
[49] “Audio samples for Conv-TasNet,” 2018. [Online]. Available: http://naplab.ee.columbia.edu/TasNet.html
[50] C. Xu, X. Xiao, and H. Li, “Single channel speech separation with constrained utterance level permutation invariant training using grid LSTM,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2018, pp. 6–10.
[51] T.-W. Lee, M. S. Lewicki, M. Girolami, and T. J. Sejnowski, “Blind source separation of more sources than mixtures using overcomplete representations,” IEEE Signal Process. Lett., vol. 6, no. 4, pp. 87–90, Apr. 1999.
[52] M. Zibulevsky and B. A. Pearlmutter, “Blind source separation by sparse decomposition in a signal dictionary,” Neural Comput., vol. 13, no. 4, pp. 863–882, 2001.
[53] S. Imai, “Cepstral analysis synthesis on the mel frequency scale,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 1983, vol. 8, pp. 93–96.
[54] G. L. Romani, S. J. Williamson, and L. Kaufman, “Tonotopic organization of the human auditory cortex,”Science, vol. 216, no. 4552, pp. 1339–1340, 1982.
[55] C. Pantev, M. Hoke, B. Lutkenhoner, and K. Lehnertz, “Tonotopic organization of the auditory cortex: Pitch versus frequency representation,” Science, vol. 246, no. 4929, pp. 486–488, 1989.
[56] C. J. Darwin, D. S. Brungart, and B. D. Simpson, “Effects of fundamental frequency and vocal-tract length changes on attention to one of two simultaneous talkers,” J. Acoustical Soc. Amer ., vol. 114, no. 5, pp. 2913–2922, 2003.
[57] J. R. Hershey, S. J. Rennie, P . A. Olsen, and T. T. Kristjansson, “Superhuman multi-talker speech recognition: A graphical modeling approach,” Comput. Speech Lang., vol. 24, no. 1, pp. 45–66, 2010.
[58] C. Weng, D. Y u, M. L. Seltzer, and J. Droppo, “Deep neural networks for single-channel multi-talker speech recognition,”IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 23, no. 10, pp. 1670–1679, Oct. 2015.
[59] Y . Qian, X. Chang, and D. Y u, “Single-channel multi-talker speech recognition with permutation invariant training,” Speech Commun., vol. 104, pp. 1–11, 2018.
[60] K. Ochi, N. Ono, S. Miyabe, and S. Makino, “Multi-talker speech recognition based on blind source separation with ad hoc microphone array using smartphones and cloud storage,” in Proc. INTERSPEECH, 2016, pp. 3369–3373.
[61] Y . Lei, N. Scheffer, L. Ferrer, and M. McLaren, “A novel scheme for speaker recognition using a phonetically-aware deep neural network,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2014, pp. 1695– 1699.
[62] M. McLaren, Y . Lei, and L. Ferrer, “Advances in deep neural network approaches to speaker recognition,” inProc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2015, pp. 4814–4818.
[63] S. Gannot et al., “A consolidated perspective on multimicrophone speech enhancement and source separation,” IEEE/ACM Trans. Audio, Speech, Lang. Process., vol. 25, no. 4, pp. 692–730, Apr. 2017.
[64] Z. Chen et al., “Cracking the cocktail party problem by multi-beam deep attractor network,” inProc. IEEE Autom. Speech Recognit. Understanding Workshop, 2017, pp. 437–444.
[65] Z.-Q. Wang, J. Le Roux, and J. R. Hershey, “Multi-channel deep clustering: Discriminative spectral and spatial embeddings for speaker-independent speech separation,” in Proc. IEEE Int. Conf. Acoust., Speech, Signal Process., 2018, pp. 1–5.