[轉]語音識別中區分性訓練(Discriminative Training)和最大似然估計(ML)的區別


轉:http://blog.sina.com.cn/s/blog_66f725ba0101bw8i.html

 關於語音識別的聲學模型訓練方法已經是比較成熟的方法,一般企業或者研究機構會采用HTK工具包、Kaldi等進行訓練,目前從聲學模型出發,提高系統性能的主要策略主要有:

    1)增加訓練數據。不同的訓練數據也會對模型有一定的影響,例如,數據的男女均衡性、采集數據的channel、數據的背景噪聲、發音人的方言等等。

    2)采用比較好的模型訓練方法。以前一般采用基於EM和Baum-Welch算法的最大似然估計MLE(Maximum Likelihood Evaluation)方法,但現在眾多研究者針對於MLE方法的缺陷,相繼提出了多種區分性訓練DT(Discriminative Training)方法,以期能得到較優的分類器。

    3)聲學模型表示。表述聲學模型,用的比較多的就是DTW、GMM-HMM,以及目前研究比較熱門的DNN(Deep Neural Network)等。

 

    下面針對MLE和DT這兩種訓練方法,進行一個理論上的分析。以下內容參考中科大鄢志傑博士的畢業論文“聲學模型區分性訓練及其在自動語音識別中的應用”。

    1. 最大似然估計MLE訓練

    目前,基於最大似然估計的MLE訓練的HMM模型是語音識別系統中聲學模型最主流的方法。這與MLE的特有的性質是分不開的。

    首先,MLE提供了一種簡單的訓練方法,使得一個較高精度的語音識別聲學模型能夠迅速地訓練得到。

    其次,MLE采用的EM、Baum-Welch算法等,使得其不需要精細的參考文本音段時間標注,並在每一步迭代中確保對目標函數的優化。

    最后,MLE估計對訓練資源的消耗較小,現在已有很多成熟的算法和工具包能夠利用對模型參數進行估計。

    但是,MLE估計再理論上做的一些假設影響了其在實際應用條件下訓練出最優分類器的能力,具體來說,MLE估計訓練出的最優HMM聲學模型需要滿足以下幾個條件:

    1)模型假設要正確。即,建模時指定的概率密度函數要能夠代表實際語音的“真實”分布。

    2)訓練數據要趨於無窮。即,可以經由無窮多的數據估計出模型的“真實”參數。

    3)解碼時需要的語言模型要事先已知,且參數要完全“真實”。

從上面的三點“真實”假設,我們可以看出,這三點在實際實踐中是不可能真正做到的。這是因為:語音參數的“真實”分布是不可測的,更談不上通常意義上的指數族函數(例如我們常采用的GMM)來充分模擬。另外,對於語音識別中的大量模型參數而言,訓練數據總是稀疏的,實際的訓練數據量遠達不到無窮的要求。再者,解碼中語言模型存在的問題與聲學模型幾乎完全一樣,因此也達不到“真實”參數的要求。所以,在現實條件下通過MLE訓練得到最優分類器是不可能的。

    2. 區分性DT訓練

    區分性訓練時研究者針對MLE訓練的不足而提出的,希望在現實條件下能得到較優的分類器。DT訓練通常定義一個目標函數(Objective Function),或者說是准則函數(Criterion Function),來近似一個與分類代價相關的度量。例如,可定義一個域分類錯誤相關的量並最小化它;或是定義一個與識別正確率相關的量,並最大化它。通過區分性訓練,我們可以從一定程度上弱化模型假設錯誤所帶來的影響。同時,由於區分性訓練致力於優化與識別效果好壞相關的度量,因此也就為提高識別器性能提供了更直接的途徑。形象的說,MLE訓練告訴模型“這是椅子,那是桌子”,而區分性訓練則告訴模型“這是桌子而不是椅子,那是椅子而不是桌子”。MLE訓練更重視調整模型參數以反映訓練數據的概率分布,而區分性訓練則更重視調整模型之間的分類面,以更好的根據設定的准則對訓練數據進行分類

    區分性群聯研究的重點主要有兩個方面,一是定義准則,即表明“需要優化什么”二是研究優化算法,即如何根據給定的准則有效的優化模型參數。在語音識別領域,常用的優化准則有:最大互信息量估計准則(Maximum Mutual Information Estimation,MMIE)、最小分類錯誤准則(Minimum Classification Error,MCE),以及最小詞/音素錯誤准則(Minimum Word/Phone Error)。而常用的參數優化准則算法則包括廣義概率下降(Generalized Pmbability Descent,GPD),以及擴展Baum-Welch(Extened Baum—Welch,EB)算法。 

    縱觀現在主流的聲學模型的訓練,一般公司的研究院或者是一些公司已經采用DNN訓練方式,或者是基於HMM的MPE/fMPE相結合的訓練方式,訓練更powerful的聲學模型。當然,這些對訓練數據的需求量依然是相當的大。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM