語音識別十年來發展的歷程


語音識別十年來發展的歷程

http://www.pattek.com.cn/ShowArticle.asp?ArticleID=746

    在過去的十年中,語音識別技術取得了巨大的發展,連續語音和非特定人的實時語音識別系統已經在實驗室之中被成功的開發和研制出來,正在迅速的投入商業應用,人們驚嘆於這門科學的飛速發展,驚嘆於科學技術力量的神奇。然而,今天的成就是許許多多的從事語音識別研究的科學家們辛勤耕耘的結果,它的成長和發展也不是一帆風順的。如果說我們把現在的語音識別技術比作早晨初升的太陽的化,那么它的現在的輝煌的也是經過漫漫長夜的煎熬和奮斗才取得的。    

    十年前的語音識別的研究是完全處在黑暗和探索之中的。人們已經意識到語音信號是一種漸變平穩信號,短時時頻分析已經被廣泛采用,已經比較成功的探索出能代表語音聲音信號的特征提取方法,這類方法大都是以模擬說話人的聲道特性為主,比較有代表性的是LPC譜和MFCC譜。但是對於連續語音的識別仍然是一個可望而不可及的高度。

1.模型的發展和變化

    最初語音識別方面的研究是集中於單音節的單個詞的研究。最初的方法集中主要是依靠模版匹配和動態時間折疊(DTW)[1],這種方法是以語音信號的短時分析為基礎,把語音信號按照一幀一幀的長度提取特征,對於標准的訓練語音,每一幀或每幾幀都訓練出一個矢量量化碼本。在識別的時候,采用動態時間折疊的方法進行模版匹配,找出離測試語音最近的標准語音模版,此時的距離還都是標准的歐式距離,概率距離的觀念還沒有得到廣泛的應用。由於模版匹配的方法沒有采用任何語言學的先驗知識,而且由於所采用的距離准則還沒有結合概率距離的觀念,建模單元都是孤立的單個詞,以單音節詞和特定人說話為主。 后來的隨着統計學習理論被引入到語音識別中,人們開始引入概率距離的觀點,而且馬爾科夫模型[2]被廣泛的引入到語音識別中,對孤立詞的識別能力大大提高。這些識別系統大都采用整詞建模的方法對整個詞進行馬爾科夫建模[3,4],模性訓練的時候采用有很多說話人的訓練集,利用統計學習理論來解決個體和整體之間的差異關系,能夠比較魯棒的建立於說話人無關的單個詞的馬爾科夫建模。在進行識別的時候可以采用馬爾科夫模性的維特比搜索的辦法進行解碼,找出正確的識別結果。

    采用單個詞的馬爾科夫建模,可以很好的刻畫每個詞內部的各種音素的相關性,可以較好的實現孤立詞的單音節和多音節詞的整詞建模,在訓練數據充分的條件下可以以較高的精度實現與說話人無關的小詞匯量的孤立詞建模。但是在用整詞建模的方法訓練模型時,每個單個詞的訓練數據只能對訓練這個詞的的模型有用,不能被其他詞利用。隨着詞匯量的增加,由於訓練數據的有限性,用整詞建模的方法很難實現每一個詞都進行准確建模。而且這種孤立詞建模的方法很少考慮到語言學的知識,很難推廣到連續語音的的識別。 針對大詞匯量連續語音識別的要求,從近十年開始,語音識別在建模單元上集中考慮的是子詞單元(sub-word unit)建模。在漢語中,當時最為研究者所推崇的是音節建模[5]。這是由於漢語語言是一種音節語言——幾乎所有的單個字的發音都是由一個聲母加上一個韻母的音節構成的。漢語的這種特殊的聲學發音結構使得從事語音學研究的科研工作者長時間的走入了片面強調個體特征而忽視群體特征的誤區。大家都一致的認為漢語的不同於其他語言(比如英語)的這種特殊之處決定了漢語連續語音識別的突破口應該從音節識別和音節建模開始,於是大批的學者開始着重於音節建模的研究和探索。

    而國際上,從事語音識別的專家和學者正在積極努力的探索語音識別聲學建模單元選擇的多種途徑。最初國際上為了開發連續語音識別系統,最先提出的子詞單元(sub-word unit)建模方法,包括是音素(phone)建模、多音素復合(Multiphone Unites)建模等。音素建模也就是我們常說的base phone建模,而多音素復合建模是泛指音節或是其他的音素組合體的建模。這里我們先指出建模單元選擇的兩個基本原則——一致性和可訓練性[6]。一致性是指一種建模單元的選擇應該遵循在任何語言環境下應該發音應該保持不變的原則。可訓練性是指所選擇的模型應該能從有限的訓練數據中得到一個魯棒的模型參數估計。前面提到的整詞建模是就是一種遵循一致性原則的建模單元選擇方法,絕大多數字的發音在任何一種語言環境下都不會隨它的上下文的改變而改變(多音字被視為不同的字,可以對一個多音字的每一個發音分別建模)。但是整詞建模卻不具備可訓練性,每個字的訓練數據不能供給其他字使用,隨着詞匯量的增加,模型數目也會急劇增加,訓練數據也就會嚴重不足,因此在大詞匯量的語音識別中,選用整詞建模的方法不具備可訓練性。與這種整詞建模相反的則是音素(phone)和音節(syllable)建模。漢語中共有61個音素和409個音節,這兩種建模單元都是具備可訓練性的。任何一個詞都可以被分割成不同的音素,這就實現了不同詞的訓練數據的共享,極大程度上利用了少量的有限的訓練數據。然而大量的語音實驗表明,一個音素的發音會受到它所在的上下文發音環境的影響而發生很大的變化,這就是我們常說的協同發音(coarticulate)的作用[7]。由於協同發音的影響,使得選擇因素或者音節為建模單元不具備一致性。因此在最初的實驗中,研究人員證明基於DTW的整詞建模在特定說話人的小詞匯量的識別系統中其性能大大強於基於音素的馬爾科夫建模[8]。而基於整詞的馬爾科夫建模的對於這種特定說話人的小詞匯量的識別率也比基於音素的馬爾科夫建模高50%[9]。而在一些實驗中,基於音節的建模在一些小詞匯量的識別系統中的識別率也遠遠低於基於整詞的馬爾科夫建模。這些實驗都有利的說明了協同發音對於音素建模和音節建模的影響。很好的說明了在建模單元的選擇上一致性的重要性。

    就在語音識別在為建模單元的可訓練性和一致性的選擇而處於兩難境地的時候。基於上下文相關音素建模為語音識別向大詞匯量的連續語音識別的發展帶來希望[10,11]。這種方法是以模擬每一個音素上下文的影響來細化音素建模的,從大批的訓練數據中挖掘每一個音素發音隨上下文的變化,找出其中的固有規律,最大程度的緩解音素建模的不一致性。比較有代表性的是兩音子(biphone)建模和三音子(triphone)建模[4,5]。兩音子建模是以模擬音素的左邊或者是右邊的上下文的相關關系而建立起來的語音識別系統。由於漢語的是一種音節語言的特殊結構,兩音子建模可以分別對聲母和韻母建立兩音子模型結構,這種兩音子模型是根據他們右邊和左邊的上下文的不同而建立,這種兩音子模型非常適合漢語這種特殊的音節結構語言的。而與此類似的三音子建模則是同時根據一個音素的左邊和右邊的音素的不同來決定不同的三音子模型,這種模型成為解決音素建模非一致性問題的主流方法。

    三音子(三音子)建模是根據一個音素的上下文的不同來決定不同的建模單元的。每一個音素會由於其上下文的不同而生成很多個模型,這些模型分別代表這個音素在一種上下文情況下的具有一致性發音。這種綜合考慮音素的上下文而建立起來的三音子模型不但描述了每一個音素的發音,而且最大程度上的描述了音素的最臨近上下文對音素的影響,找出了具有發音一致性的模型。三音子模型雖然在建模單元上比音素建模更具有一致性,但是三音子模型面臨着一個很棘手的問題——有限的訓練數據如何給出所有的三音子模型的一個魯棒的參數估計?我們知道,漢語的音素有61個,所有可能的三音子模型的數目是61*61*61=226981個三音子模型,從現有的有限的數據集是很難對所有的模型參數都做出魯棒估計的。模型建參數共享(tied)技術正是為解決數據的有限性和模型的魯棒估計之間的矛盾而產生的。模型間的參數共享是根據很多模型的輸出分布的相似系性,把許多輸出分布連接在一起,讓他們共享一個相同的輸出分布,這樣的話就會有足夠的數據來估計每一個輸出分布,這樣的話就可以利用有限的數據估計出魯棒的模型參數,這種方法實際上是在訓練數據的有限性和模型的復雜性之間做一個折衷。對於三音子模型來說,識別系統的優劣都來源於如何有效的進行輸出分布共享和參數的估計。

    最初的輸出分布共享是廣義的三音子模型(generalized triphones )[12],這種方法主要是利用人類已有的語言學和聽覺的先驗知識來合並不同的三音子模型,以實現有效的輸出分布參數共享。開始時根據訓練語料生成所有的可能的三音子模型,然后根據人類的先驗知識生成一些三音子的類別集合,這些集合中至少含有一個三音子模型。最后根據自組織聚類的方法按照一定的距離准則把距離相近的三音子模型合並在一起,直到每一個模型的參數都可以得到一個魯棒的估計。這是一種基於模型共享的參數共享方法。

    因為人類的先驗知識缺乏一定后驗支持,而且上面所提到的模型共享的方法在還不能最大程度上實現數據的多次重用。所以有的學者又提出了基於狀態聚類的三音子模型訓練方法[13],這種訓練方法是以狀態聚類為基礎的,模型減的參數共享是在狀態一級展開的, 相比於前面提到的基於三音子的聚類方法,這種采用狀態聚類的方法能夠更大程度上的實現數據的重用,從而更好的在模型復雜度和訓練數據的數量之間得到一個折衷點。從這種狀態聚類的三音子生成方法開始,三音子模型的輸出分布共享開始走入狀態這一個較小的級別上去了。雖然基於狀態聚類的三音子生成方法在很大程度上實現了有效的輸出分布共享,使得生成的三音子模型在識別率和識別效果上遠遠好於以往的三音子模型的輸出分布共享的方法,但是它還有一個很大的缺點——不能對未出現的三音子模型做出任何預測,如果測試語料中出現了一個三音子模型而在訓練語料中沒有出現,只能采用回退到簡單的音素模型或者是兩音子模型。

    針對基於狀態聚類的三音子輸出共享機制的缺點,研究人員又提出基於決策樹的連續語音三音子模型的狀態輸出分布共享方法[14 , 15]。這種輸出分布共享方法也是基於狀態的,所不同的是這時的聚類合並概率的距離最近的兩個輸出分布,而是建立在對訓練數據做決策樹的基礎之上的,這種方法可以把未出現的三音子模型用和它聲學特征比較近似的三音子模型代替,實現三音子模型的預測。這里的決策樹實際上是一個二值樹,樹的每一個節點都與答案是“是”或者“不是”的問題相連。每一個音素的每一個狀態都對應一棵決策樹,每一次問問題的時候都是根據訓練數據的似然概率的增加最大把訓練數據分成兩部分,直到似然概率的增加小於一個固定的值或者某個節點中的樣本點的數目小於一個固定的值。決策樹中所提的問題都是一些語音學的先驗知識(例如左邊是摩擦音還是開口呼),利用這些先驗問題做引導可以最大程度上利用這些語音學的先驗知識,來引導樹的分裂,從而正確的實現當前音素的三音子模型的輸出分布的共享。決策樹的生成是采用自頂向下的原則,樹的每一個最后的枝節點代表一個被共享在一起的一個狀態輸出分布。通過決策樹樹的方法所產生的輸出分布共享,融合語音學的先驗知識,以訓練數據的似然概率最大的增加為目標進行輸出分布共享,可以在三音子模型的模型復雜度和有限的訓練數據之間做很好的折衷。而且基於決策樹的輸出共享很好的解決了未出現的三音子模型的輸出分布的預測問題,從而為真正的大詞匯量連續語音的探索出了一種具有一致性和可訓練性的聲學建模方法。

    當今的國際上絕大多數連續語音識別系統都是采用依靠決策樹進行狀態輸出分布共享的三音子建模的。而國內這種三音子建模起步較晚,影響國內三音子建模的一個主要原因是由於語料庫的局限。863數據集的錄制和完成為語音識別的發展打下了堅實的基礎,也就是由於這個數據集的產生,大大的推進了三音子建模的發展,國內的很多系統也都開始采用了三音子建模。

2.搜索技術的發展

    在過去的十年的語音識別的發展中,最具決定性意義的除了聲學建模單元的選擇外就是搜索技術的發展。在最初的識別系統中,大都是采用動態規划的方法[16,17]。基於動態規划的搜索技術被廣泛的應用於很多很成熟的語音識別系統中,最初的是數字識別、孤立詞的模板匹配和孤立詞的馬爾科夫模型識別。這時的系統大都不需要任何其他的輔助知識源,單純的基於動態規划的幀同步的維特比搜索就可以很好的得到識別的結果。

    十年過去了,這種基於幀同步的動態規划方法仍然成功的應用在語音識別的各個領域中,從數字識別、小詞表、中型詞表再到具有幾萬詞的連續語音的識別[18,19,20,21,22,23],基於動態規划的幀同步的維特比搜索獲得了巨大的成功。這種成功可以歸結為兩個方面:1)基於幀同步的動態規划搜索可以結合一種高效的裁減技術。由於采用的搜索在幀同步的基礎上展開的,是一種寬度優先搜索,因此不同的路徑在同一時間點上的打分可以相互比較,比最優路徑小於一個門限制的路徑都會被認為是不可能發生的路徑而被裁減掉。這種有效的裁減機制可以使基於幀同步的動態規划搜索方法高效率的搜索很大的搜索空間,找到最佳的路徑和方案。2)這種基於幀同步的動態規划搜索的另一個優點是能夠融合很多其他的知識源,比如說語言模型和詞數等。這對於把這種搜索方法應用到大詞匯量連續語音識具有舉足輕重的作用。

    近十年的搜索技術的發展主要是集中在處理大詞匯量連續語音的搜索問題。由於建模單元的采用的上下文相關的三音子建模,通常三音子系統中采用的的三音子模型至少也有2000個左右,在大詞匯量連續語音識別中的詞匯量也有幾萬個,另外在一段連續語音中,沒有清晰的一個音素、一個音節、一個詞甚至於一個句子的開始和結尾的標志。這些因素都使得連續語音的搜索空間急劇增加,單純的只依靠聲學層次上的維特比搜索已經很難再給出正確的識別結果了。為了實現大詞匯量連續語音識別的目的,近十年來,語音識別在以下的四個方面中取得了長足的進展:

     1)語言模型的使用和發展[23, 24, 25]。在大詞匯量連續語音識別系統中,語言模型是一個全新的概念。在語音識別發展最初,在單個詞的識別系統中,是沒有語言模型的概念的。語言模型是把不同詞的連接概率從大量的語料中統計出來,在做識別的時候,這種詞與詞之間的連接概率被適時的加進去,這種引入語言學知識和信息的方法對於基於幀同步的動態規划搜索在大詞匯量連續語音識別中取得發展和成功使很關鍵的。

    2)把幀同步的動態規划算法擴展到基於聲學詞樹上的幀同步的動態規划算法[23, 26]。對一個大詞匯量的連續語音識別系統而言,把整個詞匯表按照發音的規律生成一個詞典是很有用的,搜索是在詞樹的上進行的。詞數可以以一種很有效的結構來組織搜索的空間,可以使的搜索空間變得有序,使得高速有效的搜索成為可能。在這種搜索結構下,語言模型的使用也是可能的,這就更好的為多種知識源更有效的被引入到識別系統中創造了條件。

    3)動態的構建搜索空間[26]。在大詞匯量連續音的搜索算法中,搜索空間不再是靜態的和一成不變的,而是在搜索過程中動態的發生變化,隨着路徑的合並、路徑裁減、路徑的歷史紀錄的改變、路徑在詞樹上的位置的改變等,每一條路徑的搜索空間都在動態的發生改變,這種動態構建的搜索空間可以有效利用計算機的硬件資源以及高效有序的遍歷龐大的搜索空間。

    4)更加有效的裁減技術[27,28,29]。在大詞匯量連續語音的識別系統中,在做裁減的時候引入語言模型的預測概率,這樣就可以進行更加可靠的裁減,提高搜索的准確性。

3  漢語作為一種特殊的有調語言的在語音識別發展歷史上的獨特之處

    漢語是一種的有調語言決定了漢語的除了采用常用的語音識別方法外,還擁有自身的許多特點。對聲調的建模問題是漢語語音識別不同於其他語種的關鍵問題。

    漢語有五種語調:一聲、二聲、三聲、四聲和無聲。漢語中超過30%的詞如果沒有語調的區分的話將難於辨別。因此對漢語而言,如何正確進行聲調建模對漢語大詞匯量連續語音的識別具有舉足輕重的作用。通常用的漢語語調建模有兩種方法,一種是對聲調和音素的本身的分別建模[30],在識別的時候分別用兩套模型進行識別,一套模型識別聲調,另一套模型識別音素本身,最后把它們的打分和在一起。這種方法產生的關鍵問題是沒有辦法找出一種好的途徑進行兩種模型打分的合並;而且聲調信息也是隨着它的發音上下文環境的變化而變化很大的。在許多環境下,二聲和三聲在連續語音中會完全的類似,還有由於漢語口音的差異,很多口音里面對聲調的區分很模糊,這許多因素都使得對聲調獨立建模的方法很難准確的對任何一個音節的聲調做出統一的模型和准確的識別。另一種方法就是把聲調信息和聲調的一階差分信息直接的結合到模型的特征里面[31],用新的特征進行模型的訓練和識別。在這類方法中,最有效的和富有創意的就是使用決策樹來進行聲調的建模[32]。決策樹可以在語音學的先驗知識的引導下,依靠數據驅動的原則對馬爾科夫模型的輸出分布進行合理的輸出分布共享,成功的解決了三音子模型的模型復雜度和訓練數據之間的矛盾。在利用三音子模型進行聲調建模過程中,聲調的語音學先驗知識被總結成決策樹的問題而划歸到問題集中,在進行輸出分布共享的時候,聲調問題和其他的語音學問題是同等權重的被用作決策樹分裂的問題依據的。這樣的話,在輸出分布共享過程結束以后,所產生的三音子模型都是與聲調特征有關的三音子模型。這樣的依靠聲學特征的先驗引導和數據的自身驅動機制,聲調建模和原先的沒有聲調的三音子建模融為一體,很完美的解決了漢語這種有調語言的聲調建模問題。在識別的時候,搜索過程是在一個有調的詞樹上進行的,這樣的話就可以根據聲調的不同來搜索到不同的模型,高速有效的得到識別結果。

4.魯棒性問題

    在過去幾年的語音識別的發展中,大詞匯量連續語音識別在實驗室環境下獲得了巨大的成功。研究人員紛紛開始探索把語音識別技術應用於現實社會生活中去。然而在這個技術產業化的過程中,魯棒性問題成為制約語音識別發展的一個關鍵性問題。

    由於語音識別采用的是統計學習的方法,因此訓練數據和測試數據的不匹配的時候識別系統的的識別率會大幅度下降。現在大多的語音識別系統的聲學模型是在實驗室環境下的用無噪聲污染的純凈語音訓練出來的,而在現實社會中噪聲時時存在而且隨環境的變化差異很大,這就造成了識別時的語音的特征和訓練時所用的語音的特征的不一致性,這種不一致會很大程度上來源於兩種噪聲對信號的干擾:加性噪聲和卷積性噪聲[33]。加性噪聲通常是疊加在直接疊加在語音信號上的,通常假設噪聲和信號是不相關的。而卷積性噪聲是由於語音信號受到線性系統的污染而產生的,最常見的卷積性噪聲是由麥克風引起的,在時域里,麥克風的傳遞函數和語音信號的傳遞函數相卷積,而在頻域中,這兩者的功率譜是相乘的,所以有時卷積性噪聲也叫乘性噪聲。由於語音的這兩種噪聲的作用機理性不同,所以在進行魯棒性的研究時,應該這兩種噪音源分別處理,以提高語音識別系統的在噪音干擾的環境下工作的魯棒性。

    在語音識別系統中最常用的抗噪措施是倒譜歸一化(Cepstral Mean Normalization)[34,35]。我們知道,卷積性噪聲是以相乘的方式作用在信號的功率譜上的,而MFCC對數譜加窗取對數后,卷積性噪聲就會以加的方式作用在信號的對數譜上的,從而線性疊加在語音特征的對數譜上。倒譜歸一化是在一定長度的語音里用這段時間內每一幀的倒譜的值減去這段時間里的倒譜的均值,這種方法主要是為了克服慢變的卷積性噪聲。使用了倒譜歸一化的系統可以成功的避免由於麥克風所帶來的常值卷積性噪聲。與倒譜歸一化相類似的相對譜特征(RASTA)[36],也是一種克服卷積性噪聲的有力措施,它的抗噪效果與倒譜歸一化基本相同。在當語音識別的發展中,動態特征(dynamic feature)信息的引入對於識別率的提高有很大的貢獻[37,38]。一方面動態特征的引入可以刻畫語音的前后幾幀的相關性,另一方面動態特征自身可以避免卷積性噪聲的影響,其自身包含魯棒性的機制。

    在文獻[39]中,一種基於一段長度內的倒譜歸一化方法在抗噪方面取得了一定的效果。這種方法在做倒譜歸一話的時候不僅僅是僅僅把一段時間內的倒譜減去它的均值,而且還要除以這段時間內的方差。這樣做的目的是為了使各種語音話環境下的所有的進行到譜歸一化的倒譜段的方差都為1。這種方差歸一化的方法可以模糊噪音和純凈語音之間的界限,在純凈語音中,噪聲的方差較小,這種方差歸一化的方法相當於放大噪聲,使得噪聲和語音能夠相互影響,而在信噪比很低的環境下,噪聲的方差很大,這種方差歸一化的方法相當於抑制噪聲,加強信號。通過這種隨着信噪必的變化對噪聲的自增益調節機制,可以有效的把噪聲所引起的訓練數據和測試數據之間的差異減小,不但具有一定的抗噪功能,而且能夠提高對純凈語音的識別率。

    由於現今的語音識別系統的特征大都采用的是MFCC倒譜,加性噪聲在這種特征中的影響更為明顯,對加性噪聲的探討,是魯棒性方面一個很活躍的話題。在克服加性噪聲的影響方面,譜減技術是一大類行之有效方法[40,41]。這類方法的依據是加性噪聲是以加的方式疊加在信號的功率譜上的。如果利用語音之間的間歇估計出噪音的譜,就可以直接從信號的譜中減去噪音的譜,來很大程度上克服加性噪音對信號的影響。譜減技術雖然能夠克服加性噪音對語音的影響,但是它會引入另外一種噪音——音樂噪音。這種噪音是由於譜減后,信號的功率譜的幅值隨頻率的變化在0的附近會引入很多正負波動,這些波動激烈的震盪,會引入不正確的聲調,這會對語音識別系統的識別率造成很大的影響。為了克服這種音樂噪音,譜減技術又有了許多其它的發展,比較有代表性的有[42,43,44]。[42]是在做譜減的時候采用減去一個比真正的譜的平均值稍大的值,然后對於小於0的譜采用一個門限來掩摸(mask)。[43]是通過把譜在一定時間內做平均,然后采用多種其他的音樂噪聲音抑制方法來提高譜減效果。[44]在譜上采用幅度濾波器來濾調高頻震盪的音樂噪音,並以此來改善譜減的效果的。

    並行噪音模型[44, 45](Parallel Modal Combination)也在抑制加性噪聲方面起到了一定的作用。這種方法的特點在於它不是一種在信號端的進行的一種信號增強方法,而是在模型端的一種模型補償方法。由於當今的絕大多數語音識別系統是采用馬爾科夫模型進行語音識別的建模。因此通過時時的估計噪音的概率分布參數來修正馬爾科夫模型自身的參數值就成為一種有效的提高魯棒性的方法。在[44]中,模型的倒譜參數被變換到線性譜參數空間里去,在那里根據估計出的噪聲對模型參數進行自適應調節,然后再把模型參數進行反變換回倒譜空間。這種方法在許多文獻的記載中都有較好的抗噪效果,缺點是計算量比較大。

    最近幾年,比較有代表性的噪聲抑制方法還有子帶分析方法(sub-band)[46,47]。這種抗噪方法是根據噪聲只是疊加在信號的某一頻段內的的這一假設而建立的。如果對信號分頻段建模,一個頻段內的噪聲就不會由於IDCT變化而映射到其它頻段,可以有效的克服這個頻段內的噪音對其他頻段的影響,提高系統的魯棒性。這里模型之間的連接是采用一定的先驗權重連接的。這種方法的缺點是割裂了不同頻帶之間的相關性,對純凈語音的識別率會下降,而且這種方法只能對有限帶寬信號有效,對白噪聲信號無效。對於處理這種有限帶寬的噪聲信號問題,掩摸(mask)[48,49]和拋棄受污染的特征(missing feature )[50]的方法都有一定的效果。他們都是先估計噪聲的譜,然后對音號段的譜的能量相對於噪音的平均譜值在一定幅度范圍之內的譜認為受到噪音污染,是屬於不可信的信號短,掩摸技術是采用一定的門限譜值來代替這個不可信的的信號段的譜,而拋棄受污染的特征的方法是在計算概率時只計算沒有受噪聲污染的信號段的概率打分。這兩種方法都可以在一定程度上抑制噪聲的作用,也都取得了一定的效果。 魯棒性問題作為語音識別的一個基本問題將在一定時間內長期存在。隨着語音識別進一步的走入到現實的生活,各種提高語音識魯棒性的方法也在不停的涌現,相信未來的語音識別系統一定會更好的工作在各種復雜的現實生活環境。

參考文獻

[1]. R. Lawrence, J. Biing-Hwang. “Fundamentals of Speech Recognition”, Prentice Hall, 1999.

[2]  L.R.Rabiner, “A tutorial on hidden Markov models and selected applications in speech recognition.” Proc. IEEE. vol. 77, no. 2,pp.257-285, Feb.1989.

[3]. L.R. Lippmann, E.A. Martin, and D.P. Paul, “ Multi-style training for robust isolated-word speech recognition,”, ICASSP 1987 , pp: 705-708.

[4] L.R. Rabiner, J.G. Wilpon, and F.K. Soong, “ High performance connected digit recognition using Hidden Markov Modal,” , ICASSP 1988.

[5] R.M. Schwarz, Y. L. Chow, S. Roucos, M. Krasner, and J. Makhoul, “ Improved Hidden Markov Modeling phonemes for continuous speech recognition,” ICASSP 1984.

[6]. K. F. Lee, “Context-Dependent Phonetic Hidden Markov Models for Speaker-Independent Continuous Speech Recognition”, IEEE Transaction On Acoustic Speech And Singal Processing, Vol. 38, No 4, 1990, pp: 599-609.

[7] Y. L. Chow, R. Schwartz, S. Roucos, O. Kimball, P. Price, F. Kubala, “ The role of word-dependent coarticulatory effects in a phoneme-based speech recognition system”, ICASSP 1986.

[8]. L. R. Bahl, P. F. Brown, P. V. De Souza , and R.L. Mercer. “ Acoustic Markov models used in the Tangora speech recognition system”,  ICASSP 1988.

[9]. D.B. Paul and E.A. Martin, “ Speaker stress-resistant continuous speech recognition”, ICASSP 1988.

[10] L. R. Bahl, R. Bakis, P.S. Cohen, A.G.. Cole, F. Jelinek, B.L. Lewis and R.L. Mercer, “Further results on the recognition of a continuous read natural corpus”, ICASSP 1980.

[11] R.M. schwartz, Y. L. Chow, S. Roucos, M. Krasner, and J. Makhoul, “Improved hidden Markov modeling phonemes for continuous speech recognition”, ICASSP 1984.

[12] K.-F. Lee, Automatic Speech Recognition-The Development of the SPHINX System. Norwell:MA: Kluwer 1989.

[13]. S.J. Young and P.C. Woodland, “ State clustering in hidden Markov modal-based continuous speech recognition”, Computer Speech and Language(1994), 8, 369-383.

[14].M.-Y. Huang, X. Huang, and F. Alleva, “ Predicting unseen triphones with senons”, ICASSP 1993, pp: 311-314.

[15]. S.J. Young, J.J. Odell, and P.C. Woodland, “Tree based state tying for high accuracy modeling”, ICASSP 1992, pp: 286-291.

[16] H. Sakoe, “ Two-level DP matching-A dynamic programming-based pattern matching algorithm for connected word recognition”, IEEE Transaction On Acoustic Speech And Signal Processing, Vol. 27, pp.588-595, Dec. 1979.

[17] F. Itakura, “Minimum prediction residual principle applied to speech recognition”, IEEE Transaction On Acoustic Speech And Signal Processing, Vol 23, Feb. 1975.

[18] J.S. Bridle, M.D. Brown, and R.M. Chamberiain, “ An Algorithm for connected word recognition “, ICASSP 1982, pp: 899-902.

[19] F. Alleva, X. Huang, and M-Y.Huwang, “ An improved search algorithm using incremental knowledge for continuous speech recognition”, ICASSP 1993, pp: 307-310.

[20] R. Cardin, Y. Normandin, and R. DeMori, “ High performance connected digit recognition using codebook exponents”, ICASSP 1982, pp: 505-508.

[21] X. Aubert and H. Ney, “Large Vocabulary continuous speech recognition of wall street journal corpus”, ICASSP 1994, pp: 129-132.

[22] F. Kubala, A. Anastaskos, J. Makhoul, L. Nguyen, and R. Schwartz, “Comparative experi-ments on large vocabulary speech recognition”, ICASSP 1994, pp 561-564.

[23] H. Ney, R. Haeb-Umbach, B.-H. Trans. and M. Oerder, “ Improvement in beam search for 10000-word continuous speech recognition”, ICASSP 1992, pp:13-16.

[24] J.J. Odell, V.Valtchev, P.C. Woodland, and S.J. Young, “ A one-pass decoder design for large vocabulary recognition”, in processing of ARPA Spoken Language Technology Workshop, 1994, pp: 405-410.

[25] H. Ney, “Search strategies for large-vocabulary continuous-speech recognition”, NATO Advanced Studies Institute, Bubion, Spain, June-July 1993.

[26] S. Ortmanns and H. Ney, “Experimental analysis of the search speech for 20000-word speech recognition”, EUROSPEECH 1995, pp:901-904.

[27] S. Ortmanns and H. Ney, “Look-ahead technology for fast beam search”, ICASSP 1995, pp:1783-1786.

[28] S. Renals and M. Hochberg, “Efficient search using posterior phone probability estimates”, ICASSP 1995, pp:596-599.

[29] V. Steinbiss, B.-H. Train and H. Ney, “Improvement in beam search”, ISCLP 1994, pp:1355–1358.

[30] Hsin-Min Wang, Tai-Hsuan Ho, etc., “Complete Recognition of Continuous Mandarin Speech for Chinese Language with Very Large Vocabulary Using Limited Training Data”, IEEE Trans. Speech and Audio Processing, Vol.5, No.2, March 1997, pp195-200.

[31] Bo XU, Sheng Gao, Yang Cao, Hua Wu and Taiyi. Huang,“Integrating Tone Information In Continuous Mandarin Recognition”, ISSPIS’99, Guangzhou, P.R.China.

[32] 高升,徐波,黃泰翼. “基於決策樹的漢語三音子模型”, 《聲學學報》,Vol.25, No.6, Nov. 2000.

[33]  Y. G.ong. “Speech recognition in noisy environments: A survey”, Speech Communication, Vol 16, 1995, pp:261-191.

[34] F.-H. Liu, R.M. Stern, A. Acero and P.J. Moreno. “Environment normalization for robust speech recognition using direct cepstral comparison”, ICASSP 1994,Vol 2, pp:61-64.

[35] S. Furui. “Cepstral analysis technique for automatic speaker verification”, IEEE Trans. Acoustic Speech Signal Process, Vol. 34, No. 1, 1986, pp. 52-59.

[36] H. Hermansky, N. Morgan, and H.–G. Hirsh(1993), “Recognition of speech in additive and convolutional noise based on RASTA spectral processing”, ICASSP 1993, pp:83-96.

[37] T. Applebaum and B. Hanson, “Regression features for recognition of speech in quite and in noise”, ICASSP 1991, pp:985-988.

[38] S.Furui. “Speaker independent isolated word recognition using dynamic features of speech spectrum”, IEEE Trans. Acoustic Speech and Signal Processing, Vol. ASSP-34, 1986, pp:52-59.

[39] O. Viikki and K. Laurila. “Cepstral domain segmental feature vector normalization for noise robust speech recognition”, Speech Communication, Vol. 25, 133-147.

[40] J.S. Lim, “Evaluation of a correlation subtraction method for enhancing speech degraded by additive noise”, IEEE Trans. Acoustic Speech and Signal Processing, Vol. ASSP-26, 1978, pp:471-472.

[41] D.V. Compernolle, “ Improve noise immunity in large vocabulary speech recognition with the aid of spectral subtraction”, ICASSP 1987, pp:1143-1146.

[42] W.M. Kusher, G. Vladimir, C. Wu, V. Nguyen, and J.N. Damoulakis. “ The effect of sub-stractive-type speech enhancement/noise reduction algorithm on parameter estimation for improved recognition and coding in high noise environments”, ICASSP 1989, 211-214.

[43] S.F. Boll, “ Suppression of acoustic noise in speech using spectral substraction”, IEEE trans. Acoustic Speech and Signal Processing, Vol. ASSP 27, 1979, pp:113-120.

[44]. R.M. Crozier, B.M.G. Cheetham, C. Holt, and E. Munday. “ Speech Enhancement employing  spectral subtraction and linear predictive analysis”, Electronic Letter, Vol. 29, 1993, pp:1094-1095.

[45] M.J.F. Gales and S.J. Young. “Parallel model combination for speech recognition in noise condition”, Technical Report F-INFENG/TR-135, Cambridge University, Engineer Department, UK.

[46] H. Boulard and S. Duponet. “Subband-based speech recognition”, ICASSP 1997, pp:545-548.

[47] P.M. McCourt, S.V. Vaseghi and B. Doherty. “Multi-resolution sub-band features and models for HMM-based phonetic modelling”, Computer Speech and Language, Vol.14, 2000,pp:241-259.

[48] D.H. Klatt, “ A digital filter-bank for spectral matching”, ICASSP 1976, pp: 573-576.

[49] N. Virag, “ Single Channel Speech Enhancement Based on Masking Properties of the Human Auditory System”, IEEE Trans. On Speech and Audio Processing, Vol 7, No 2, 1999, pp:126-136.

[50] P. Renevey and A. Drygajlo, “Missing feature theory and probabilistic estimation of clean speech components for robust speech recognition”, EUROSPEECH 1999.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM