說話人識別相關基礎知識整理(持續更新)


說話人識別領域的研究所面臨的挑戰

背景噪聲問題,跨信道問題,多說話人分割聚類,多模態識別,短語音問題,語音的長時變換問題,耳語音以及其他各種實際應用環境下的魯棒性問題等。
說話人識別技術研究的核心是解決訓練與測試之間的失配問題,這種失配也稱作會話變異(Session Variability)導致訓練和測試之間差異的因素主要分為兩大類:說話人差異,如聲道差異、發音特點、說話人風格等,這是對說話人識別有用的部分;會話間差異,如不同的采集設備、傳輸媒介等,這種失配嚴重影響說話人識別的性能。在進行說話人識別前,導致會話間差異的各種失配信息都應該被去除。一個理想的說話人識別系統,應該在去除失配信息的同時盡量完整地保留說話人本質特征

  • 在具體研究中,語音中說話人個性特征的分離與提取以及精准的模型建模是決定系統性能的兩個關鍵環節。

說話人識別的分類和基本組成

(1)說話人識別根據使用的范圍可分為三類:

1)說話人辨認(Speaker Identification),即判定待測試說話人的語音屬於幾個參考說話人其中之一,是一個多選一問題;
2)說話人確認(Speaker Verification),即確定待測說話人的語音與其特定參考說話人是否相符,是二選一的是非問題,即確認(肯定)或拒絕(否定)。
3)說話人分割和聚類(Speaker segmentation and clustering),此時輸入的語音信號由兩個或多個不同說話人的語音交替出現組成,需要將每一個說話人的語音都挑出來並且聚類成一類。

(2)說話人辨認研究根據待測試語音的特點可以分為兩類:

1)閉集(close-set)識別,即待測說話人的語音必然屬於候選說話人集合中的某一位,待測語音要與集合中的說話人模型一一匹配,即待識別說話人屬於已知的說話人集合。
2)開集(open-set)識別,部分待測說話人不屬於已知的說話人集合,這要求開集情況下待測語音在與集合中的說話人模型庫一一匹配后,也可能做出拒絕判定。

(3)說話人研究根據識別內容可以分為兩類:

1)文本相關(Text-Dependent)識別,該方法在訓練時要求用戶按規定的文本發音,每個說話人建立精確地模型(如基於音素或詞的模型);識別時,也要求用戶按照規定的文本發音。這種約束條件下,一般可以達到較好的識別效果,但需要用戶主動配合。
2)文本無關(Text-Independent)識別,此時不規定說話人發音的文本內容,對特征提取和模型建立相對困難,但不需要用戶配合,使用方便,應用范圍也更寬,成為研究的熱點。

說話人識別的特征提取

  • 說話人之間(Inter-Speaker)的差異,說話人自身(Intra-Speaker)的差異

現在的前端處理方法,都是使用分幀對語音數據進行處理,因為語音信號是一個非平穩信號。逐幀處理數據也能夠體現信號中的時序特性,如果逐點對數據進行處理的話,所需要的計算量太大,而且對於信息的分割也太細。

(1)說話人識別特征的特點

語音信號中同時包含語義信息、說話人信息等不同的信號特征。在說話人識別研究中,希望提取具有更好地說話人鑒別性的特征,該特征應該具有以下幾個特點:

  • 說話人之間的差異大,而說話人本身的差異性小
  • 對噪聲和傳輸信道失真具有良好的魯棒性
  • 在語音中的存在的方式頻繁而且自然(是一個固有特征,而非偶然出現或者出現概率較小的特征)
  • 易於提取,易於計算
  • 不易被模仿
  • 不易受說話人的健康、情緒等影響

(2)常用人類聲音特征分層

  • 語言結構層(高級特征):通過對語音信號的分析,可以獲取更為全面和結構化的語義信息,包括語義、言語習慣、發音、修辭等。還有說話人的常用詞匯,語言結構等語言結構層的特征主要表征了說話人的受教育水平、生活區域、社會經濟狀況等信息。
  • 韻律層特征:通過分析語音信號,還可以抽取獨立於發聲和聲道等因素的超音段特征,這些特征表征了個人的話語韻律特點,如語調、語速、音量、韻律、方言等。
  • 聲學層特征(低級特征):針對語音幀,在分析短時信號信息的基礎上,抽取對通道、時間不敏感的特征參數,包括語音中的聲學特性、鼻音、呼吸音、沙啞特征等。聲學層特征主要表征了說話人發音機制的解剖學結構。

**超音段特征(如音高、能量等)在語音感知中起到了重要作用,但這些特征很難被應用於說話人識別中。一方面這些特征的提取比較困難,另一方面這些特征難以參數化,還存在特征易變易仿冒,可以由說話人有意地控制等問題
**

(3)音段特征

目前采用的語音特征參數大多利用低層聲學特征,例如線性預測的倒譜系數、基於Mel頻率的倒譜系數和感知線性預測系數等。聽覺試驗結果表明人類的聽覺對語音頻譜中的過渡信息非常敏感,倒譜系數的差分過程就足可以較好地表達過渡信息的語音特征參數。常用的提取方法是在靜態的倒譜參數中加入動態信息來強化特征表示,如加入倒譜的差分特征和自回歸參數等(\(\Delta, \Delta \Delta\))。有時,一些時域的參數和高層倍息也常被用作輔助特祉參數(包括短時能量及其一階差分、功率譜稀疏、基音頻率、共振峰及共振峰帶寬、鼻音聯合特征、習慣用語特征和基於單詞或音素的N元模型等),以提高系統的性能。

一般認為,高層次語音信息主要包含在基音頻率、聲音能量及其差分的概率統計分布中。然而,有研究認為,高層次語音信息(包括重音、語調和韻律)主要體現在基音頻率和語音能量變換的動態信息中,可以通過把連續語音划分成離散的單元來提取各種高層信息,還驗證了高層信息對低層特征的良好補充且對信道效應不敏感。

說話人識別模型

(1)模板匹配法

(2)統計概率模型法

與傳統的模板匹配法相比,統計概率模型法具有更強的靈活性,並且從理論上講,其概率似然得分更有統計意義。與模板匹配所不同的是:第一,它不根據特征矢量(模板)本身來建模,而是根據特征的概率分布規律來建模;第二,它不根據模板的距離關系來進行類別判定,而是根據概率關系或似然度分進行判別。其中典型的就是GMM-UBM算法,但是這一算法在實際應用中存在運算量大的問題。

(3)人工神經網絡法

熱點的神經網絡算法包括時延神經網絡(TDNN),決策樹神經網絡(DTNN)等。

(4)支持向量機法

(5)稀疏表示法

稀疏表示(Sparse Representation,SR)的原理是利用字典的學習,將信號特征表示成少數基本原子的線性組合的過程。稀疏表示算法使能量相對集中於少量原子,該算法任務對應於系數非零的少量原子描述了信號的主要特性與內在結構。

說話人識別系統的性能評價

  • 正確識別率:待識別語音樣本中能夠被正確地確定說話人的比例

\[識別率=\frac{正確識別樣本個數}{待識別樣本總數} \]

  • 錯誤識別率(錯誤率)是從另一個角度評價說話人辨認系統的指標

\[錯誤識別率=1-識別率 \]

說話人確認系統評價

說話人確認系統的性能通常可以用兩個主要指標來表示:錯誤拒識率(False Rejection Rate,FRR)和錯誤接收率(False Acceptance Rate,FAR)。前者是拒絕真實的說話人造成的差錯,后者是將冒名頂替者錯認為說話人造成的差錯。

\[錯誤拒識率=\frac{被拒絕的正確樣本個數}{正確樣本總數} \times 100\% \]

\[錯誤接受率=\frac{被接收的錯誤樣本個數}{錯誤樣本總數} \times 100\% \]


顯然,這兩個指標是相互矛盾的,在實際應用中需要根據具體任務進行調節。在圖中,畫出了錯誤拒絕了-錯誤接收率曲線。通常情況下,會將判決閾值選擇為FRR和FAR相等時的值,該值成為等差錯率閾值(Equal Error Rate,EER),並用此時的錯誤率描述說話人確認系統的整體性能。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM