1.FSMN 綜述

由於 Bi-RNN 較高的成功率需要得到整段語音所有未來信息的支持才能實現，因此會帶來較長的硬延時，故 Bi-RNN 不適合作為在線語音識別的模型。故在 2015 年科大訊飛提出了 FSMN（Feedforward Sequential Memory Networks）模型，該模型在很小的延時下，就能取得與 Bi-RNN 一樣的效果。
詳見論文：
(1)Feedforward Sequential Memory Neural Networks without Recurrent Feedback 該篇篇幅較短，只介紹了 FSMN 在 Language Model 的應用。
(2)Feedforward Sequential Memory Networks: A New Structure to Learn Long-term Dependency 該篇較為詳細的描述了 FSMN 的三個變種，在 Acoustic Model 和 Language Model 上的應用。

在 FSMN 的基礎之上，陸陸續續又出現了 cFSMN、DFSMN、pyramidal-FSMN 等 FSMN 的變種。
(1)cFSMN:Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition
(2)DFSMN:Deep-FSMN for Large Vocabulary Continuous Speech Recognition
(3)pyramidal-FSMN:A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition

2.FSMN

前面提到了，有兩篇論文講述了 FSMN，這里就選取較為全面的第二篇 Feedforward Sequential Memory Networks: A New Structure to Learn Long-term Dependency 進行講解。

FSMN
FSMN 的結構如上圖所示，在圖中我們可以看到，FSMN 對比普通的前饋神經網絡，最大的區別就是引入了 Memory Block. 該 Memory 的表達式如下：
$\tilde{\mathbf{h}}_{t}^{\ell}=\sum_{i=0}^{N} a_{i}^{\ell} \cdot \mathbf{h}_{t-i}^{\ell}$
其中， $\mathbf{h}_{t-i}^{\ell}$ 為 $t - i$ 時刻 $\ell$ 層的 features， $a_{i}^{\ell}$ 為對應的時不變系數。

這里可以看出，Memory Block 中儲存了 $N$ 個 $\mathbf{h}_{t-i}^{\ell}$ 的 “過去記憶”，該 “過去記憶 $\tilde{\mathbf{h}}_{t}^{\ell}$ ” 會與當前層的 features $\mathbf{h}_{t}^{\ell}$ 一起前向傳入下一層。

當然，不難想到，該 Memory Block 也可以通過引入部分延時來存儲 “未來的記憶”，改進后的表達式如下：
$\tilde{\mathbf{h}}_{t}^{\ell}=\sum_{i=0}^{N_{1}} a_{i}^{\ell} \cdot \mathbf{h}_{t-i}^{\ell}+\sum_{j=1}^{N_{2}} c_{j}^{\ell} \cdot \mathbf{h}_{t+j}^{\ell}$
其中， $\mathbf{h}_{t+j}^{\ell}$ 為 $t + j$ 時刻 $\ell$ 層的 features， $c_{i}^{\ell}$ 為對應的時不變系數。

文章中對 Memory Block 中時不變系數 $a_{i}^{\ell}$ 和 $\mathbf{h}_{t-i}^{\ell}$ 的運算 ( $\cdot$ ) 進行了分類:
(1) 若 $a_{i}^{\ell}$ 為一個常數，則該 FSMN 被稱為 sFSMN， $a_{i}^{\ell}$ 和 $\mathbf{h}_{t-i}^{\ell}$ 之間的運算為標量相乘。
(2) 若 $a_{i}^{\ell}$ 是一個與 $\mathbf{h}_{t-i}^{\ell}$ 等長的向量，則該 FSMN 被稱為 vFSMN, $a_{i}^{\ell}$ 和 $\mathbf{h}_{t-i}^{\ell}$ 之間的運算為 dot product.

文章解釋了 FSMN 的 Memory Block 可以替代 RNN 中原因：

如上圖所示，RNN 中的循環結構可以看成一個 IIR 濾波器 ( $z^{-1}$ 為上一時刻導數的 Z 變換)，FSMN 中的 Memory 可以看成一個 FIR 濾波器。根據信號與系統的知識我們知道，IIR 濾波器可以通過高階的 FIR 濾波器逼近表示。所以 FSMN 中的 Memory Block 可以看成是 RNN 中循環結構的近似。由於 FSMN 在同一層中的某時刻的輸入不需要依賴上一時刻的輸出，所以網絡的訓練時間對比 RNN 會大大縮短。

FSMN 的參數更新公式為：
$\tilde{\mathbf{h}}_{t}^{\ell}=\sum_{i=0}^{N_{1}} \mathbf{a}_{i}^{\ell} \odot \mathbf{h}_{t-i}^{\ell}+\sum_{j=1}^{N_{2}} \mathbf{c}_{j}^{\ell} \odot \mathbf{h}_{t+j}^{\ell}$

$\mathbf{h}_{t}^{\ell+1}=f\left(\mathbf{W}^{\ell} \mathbf{h}_{t}^{\ell}+\tilde{\mathbf{W}}^{\ell} \tilde{\mathbf{h}}_{t}^{\ell}+\mathbf{b}^{\ell}\right)$

3.cFSMN

如果使用 FSMN，設該層和下一層的神經元的個數均為 $n$ 時，"前向記憶" 的個數為 $N_1$ ，"后向記憶" 的個數為 $N_2$ ，該層的參數個數為: $n*n+n*n+n*(N_1+N_2)$ 個。當 $n$ 很大，訓練參數就會很多。

為了解決 FSMN 參數較多的問題，文章 Compact Feedforward Sequential Memory Networks for Large Vocabulary Continuous Speech Recognition 提出了 cFSMN，該文章借鑒了矩陣低秩分解的思路在網絡中引入了一個維數較小的 project 層，通過該 project 層進行降維，從而實現減少訓練參數個數的目的。

cFSMN 的結構如下圖所示：
在這里插入圖片描述
cFSMN 的參數更新公式為：
$\mathbf{p}_t^{\ell}=\mathbf{V}^{\ell}\mathbf{h}_t^{\ell}$
$\tilde{\mathbf{p}}_{t}^{\ell}=\mathbf{p}_{t}^{\ell}+\sum_{i=0}^{N_{1}} \mathbf{a}_{i}^{\ell} \odot \mathbf{p}_{t-i}^{\ell}+\sum_{j=1}^{N_{2}} \mathbf{c}_{j}^{\ell} \odot \mathbf{p}_{t+j}^{\ell}$
$\mathbf{h}_{t}^{\ell+1}=f\left(\mathbf{U}^{\ell} \tilde{\mathbf{p}}_{t}^{\ell}+\mathbf{b}^{\ell+1}\right)$

設 project 層的 features 個數為 $p$ , 該層和下一層的神經元的個數均為 $n$ , 則 cFSMN 參數的個數為 $n*p+p*(N_1+N_2)+n*p$ .

4.DFSMN

因為每個 cFSMN 層中包含了較多的子層，一個包含 4 個 cFSMN 層，2 個 DNN 層的 cFSMN 網絡總共需要 12 層結構。若通過直接增加 cFSMN 層的方法來設計更深的 cFSMN 網絡，網絡可能會出現梯度消失的問題。

針對上述問題，文章 Deep-FSMN for Large Vocabulary Continuous Speech Recognition 提出了 DFSMN，該 DFSMN 在 cFSMN 的 Memory Block 之間添加了 skip connection，使低層的 memory 可以直接流入高層的 Memory Block 中。在反向傳播的過程當中，高層的梯度也會直接流入低層的 Memory Block 中，這樣有助於克服梯度消失的情況。DFSMN 的結構如下圖所示：
DFSMN
DFSMN 的參數更新公式為：
$\mathbf{p}_t^{\ell}=\mathbf{V}^{\ell}\mathbf{h}_t^{\ell}$
$\tilde{\mathbf{p}}_{t}^{\ell}=\mathcal{H}\left(\tilde{\mathbf{p}}_{t}^{\ell-1}\right)+\mathbf{p}_{t}^{\ell}+\sum_{i=0}^{N_{1}^{\ell}} \mathbf{a}_{i}^{\ell} \odot \mathbf{p}_{t-s_{1} * i}^{\ell}+\sum_{j=1}^{N_{2}^{\ell}} \mathbf{c}_{j}^{\ell} \odot \mathbf{p}_{t+s_{2} * j}^{\ell}$
$\mathbf{h}_{t}^{\ell+1}=f\left(\mathbf{U}^{\ell}\tilde{\mathbf{p}}_{t}^{\ell}+\mathbf{b}^{\ell+1}\right)$

$\mathcal{H}\left(\tilde{\mathbf{p}}_{t}^{\ell-1}\right)$ 表示低層 Memory Block 與高層 Memory Block 的連接形式。若將低層的 Memory 直接添加到高層的 Memory Block 中，則 $\mathcal{H}\left(\tilde{\mathbf{p}}_{t}^{\ell-1}\right)=\tilde{\mathbf{p}}_{t}^{\ell-1}$ 。

5.pyramidal-FSMN

pyramidal-FSMN 是雲從科技 2018 年刷新 Librispeech 數據集正確率最高記錄時使用的模型中的一部分。詳情見論文 A novel pyramidal-FSMN architecture with lattice-free MMI for speech recognition。

文章認為在 DFSMN 的結構中，若直接將底層的 Memory Block 的 Memory 直接添加到上層的 Memory Block 中，這將導致上層和底層擁有相同記憶，這么做是非常冗余的。文章提出的 pyramidal-FSMN 結構，它相比於 DFSMN 有兩點不一樣：第一點改變是底層的 Memory Block 較小，越高層的 Memory Block 依次變大，文章認為這樣的結構可以用底層提取音素信息，而用高層提取到語義和語法特征；第二點改變是在 skip connection 連接底層和上層的 Memory Block 時，只有在 Memory Block 的 size 不一樣時，才進行連接。

pyramidal-FSMN 中 Memory Block 的更新公式為：
$x_{t}^{l}=x_{t}^{l-m}+\sum_{i=0}^{N_{1}^{l}} a_{i}^{l} \odot h_{t-s_1 * i}^{l}+\sum_{j=0}^{N_{2}^{l}} b_{i}^{l} \odot h_{t+s_2 * j}^{l}$

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 FSMN結構快速解讀語音識別端到端模型解讀：FSMN及其變體模型 DFSMN結構快速解讀 Bert及變種簡述 A* 尋路的八個變種 Logistic Regression的幾個變種金字塔卷積：Pyramidal Convolution 語音識別算法閱讀之DFSMN Brainfuck顏文字變種解密二分查找及其變種算法