聲紋識別算法閱讀之CN-Celeb


論文:
CN-Celeb: A CHALLENGING CHINESE SPEAKER RECOGNITION DATASET
思想:
  論文的貢獻在於提供了一個非約束條件下的大規模中文說話人識別數據集,該數據集包含環境、通道與情感的變化。這是與現目前大多數開源說話人識別數據集(約束條件,很小的噪聲和通道變化)的最大區別。該數據集包含1000個說話人,共計約13萬個句子,總時長274小時,涵蓋了11種真實場景下的不同類型。作者在兩個比較流行的說話人識別算法i-vector和x-vector上做了實驗,並與英文說話人識別自然場景數據集voxceleb進行對比,從實驗結果看,一方面能夠表明CN-Celeb的更具挑戰性,另一方面也可看出非約束條件下的說話人識別的真實效果還有待提高。
CN-Celeb:
  • 數據分布:CN-Celeb數據集跨越11種真實的場景,每一個說話人至少包含5種不同的場景錄音。
  • 挑戰性:
  1. 錄音包含真實噪聲,比如背景babble、music、cheer、laugh等
  2. 錄音包含背景說話人重疊
  3. 錄音包含不同的場景,娛樂、電影、采訪等
  4. 同一說話人錄音來源不同的時間,通過不同的設備進行采集得到
  5. 錄音包含短句
訓練:
  • 訓練集:
  1. voxceleb:7185 speakers 1,236,567 utts
  2. CN-Celeb:800 speakers 111260 utts
  • 驗證集:
  1. SITW: 299 speakers 6445 utts
  2. CN-Celeb:200 speakers 18849
  • 模型:
  1. voxceleb:

    i-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v1,GMMs(2048)、i-vector(400)

    x-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2

  1. CN-Celeb:i-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/cnceleb/v1

    x-vector+PLDA:https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2 ,TDNN節點由voxceleb中的512減少到256

實驗:
  • 前端(i-vector、x-vector)和后端(PLDA)全部采用voxceleb訓練條件下:在SITW上最好結果為EER=3.75%,在CN-Celeb上最好為15.52%
  • 前端和后端采用不同訓練集搭配時,在CN-Celeb可以取得不錯的結果,比如x-vector(voxceleb)+PLDA(CN-Celeb)的訓練模式,在CN-Celeb驗證集上能夠取得最好的實驗結果11.99%
結論:
  論文的貢獻在於提供了一個非約束條件下的大規模中文說話人識別數據集,該數據集包含1000個說話人,共計約13萬個句子,總時長274小時。數據集包含環境、通道與情感的變化,涵蓋了11種真實場景下的不同類型。此外,論文還通過實驗表明了,結合voxceleb訓練x-vector+CN-Celeb訓練PLDA的搭配訓練模式能夠在CN-Celeb驗證集上取得最好的實驗效果
實戰:結合voxceleb v2( https://github.com/kaldi-asr/kaldi/tree/master/egs/voxceleb/v2)、CN-Celeb v1( https://github.com/kaldi-asr/kaldi/tree/master/egs/cnceleb/v1),實現的基於kaldi的CN-Celeb v2 x-vector+PLDA訓練腳本,詳見github: https://github.com/zhaoyi2/xvector-cnceleb
效果:
  • x-vector(cn-celeb) + PLDA(cn-celeb)
CN-Celeb Eval Core:
EER: 16.71%
minDCF(p-target=0.01): 0.7657
minDCF(p-target=0.001): 0.8823
  • x-vector(voxceleb) + PLDA(cn-celeb)
CN-Celeb Eval Core:
EER: 12.43%
minDCF(p-target=0.01): 0.6064
minDCF(p-target=0.001): 0.7381

  注:沒有去精細調參數或者添加一些前置優化項,如果你願意去做這些的話,也許能夠達到與論文中可比的效果

Reference:
[2] voxceleb: http://openslr.org/49/
[3] 開源voxceleb模型:https://kaldi-asr.org/models/m7
[4] CN-Celeb:http://openslr.org/82/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM