AI大語音（五）——隱馬爾科夫模型（HMM）

本文轉載自查看原文 2020-08-20 01:09 567 AI大語音（ASR）

點擊上方“AI大道理”，選擇“置頂”公眾號

重磅干貨，細致入微AI大道理

——————

1HMM基礎

一模型、兩假設、三問題

1）一個模型

隨機過程：是依賴於參數的一組隨機變量的全體，參數通常是時間。隨機變量是隨機現象的數量表現，其取值隨着偶然因素的影響而改變。

例如，某商店在從時間t0到時間tK這段時間內接待顧客的人數，就是依賴於時間t的一組隨機變量，即隨機過程。

馬爾科夫過程：隨機過程的一類，系統下一時刻的狀態僅與單前狀態有關。

隱馬爾科夫模型（HMM）:用來描述一個含有未知參數的馬爾科夫過程。

隱馬爾可夫模型是關於時間序列的概率模型，描述由一個隱藏的馬爾可夫鏈隨機生成不可觀測的狀態序列 (state sequence)，再由各個狀態生成一個觀測而產生觀測序列 (observation sequence)的過程，序列的每一個位置又可以看作是一個時刻。

2）兩個基本假設

齊次馬爾可夫性假設：隱藏的馬爾可夫鏈在時刻t的狀態只和t-1的狀態有關。

觀測獨立性假設：觀測只和當前時刻的狀態有關。

3）三大問題

1）概率計算問題。即給定模型λ=(A,B,Π)λ=(A,B,Π)和觀測序列O={o1,o2,...oT}O={o1,o2,...oT}，計算在模型λ下觀測序列O出現的概率P(O|λ)。這個問題的求解需要用到前向算法、后向算法和直接計算法。

2）解碼問題。即給定模型λ=(A,B,Π)和觀測序列O={o1,o2,...oT}，求給定觀測序列條件下，最可能出現的對應的狀態序列，這個問題的求解需要用到基於動態規划的Viterbi算法。

3）模學習問題。即給定觀測序列O={o1,o2,...oT}，估計模型λ=(A,B,Π)的參數，使該模型下觀測序列的條件概率P(O|λ)最大。這個問題的求解需要用到基於EM算法的Baum-Welch算法。

2 HMM的隱狀態

隱狀態、箱子、第K個高斯

隱藏狀態是抽象出來的概念，由於語音信號在一個長時間斷內是非平穩信號，而在一個較短的時間內則可近似看做平穩的(比如50毫秒)。平穩信號的特點在於信號的頻譜分布是穩定的，不同時間段的頻譜分布相似。隱馬爾可夫模型將一小段頻譜相似的連續信號歸為一個隱狀態。Viterbi算法對齊就是為了找到哪些幀歸於哪個隱狀態，隱馬爾可夫模型的訓練過程是最大化似然度，每一個狀態產生的數據用一個概率分布表示。只有當相似的連續信號盡可能被歸為同一個狀態，似然度才能盡可能的大

類比箱子和小球，手從哪個箱子拿的球不知道，只知道拿出來后看見的小球，問小球來自哪個箱子的可能。其中，箱子就是隱狀態，小球就是可觀測的。箱子中有不同小球的比例，或者分布，而HMM中也有隱狀態對應到特征向量的概率分布。假如箱子中小球分布符合高斯分布，假設HMM中隱狀態中特征符合高斯分布，GMM混合高斯模型就是在模擬這個分布，理解性的表達可以說模擬隱狀態中可觀測特征的比例。只不過一個箱子中三個小球比列為3:2:1，而HMM一個隱狀態中有39種特征，也是有占比。

GMM中也有隱狀態，特征向量不知道來自哪個Gaussion。K1、K2、K3組成一個GMM，K1、K2、K3類比箱子1、箱子2、箱子3，類比HMM中狀態1、狀態2、狀態3。