論文: VoxCeleb2: Deep Speaker Recognition 思想:顯然,VoxCeleb2是在voxceleb基礎上擴充和改進,仍然是兩個貢獻點: 1)擴大聲紋識別數據集,由voxceleb的1251說話人超過19萬句子,到voxceleb2 ...
論文: Deep Speaker: an End to End Neural Speaker Embedding System 思想: Deep Speaker是百度提出的一種端到端的說話人編碼方法。該方法采樣ResCNN或GRU進行幀級別的特征提取,然后時間平均層將輸入序列幀級別的特征轉化為句子級別的特征表達,彷射變換層將編碼映射到指定維度,長度歸一化層輸出便於cosine相似度計算 模型預訓 ...
2020-09-12 17:20 0 1604 推薦指數:
論文: VoxCeleb2: Deep Speaker Recognition 思想:顯然,VoxCeleb2是在voxceleb基礎上擴充和改進,仍然是兩個貢獻點: 1)擴大聲紋識別數據集,由voxceleb的1251說話人超過19萬句子,到voxceleb2 ...
論文: End-to-End Text-Dependent Speaker Verification 思想: google提出的文本相關的說話人確認,通過DNN或LSTM的網絡結構提取說話人特征表達;然后注冊階段輸入說話人的多個文本相關句子(考慮環境噪聲等干擾 ...
論文: ATTENTION-BASED MODELS FOR TEXT-DEPENDENT SPEAKER VERIFICATION 思想: 可以看作是在Google15年提出的d-vector算法的改進, 1)采用可學習的帶權重和偏置的cosine ...
論文: GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION 思想: 本文是在Google上一篇論文attention-based model(TE2E[1])的基礎上,針對損失函數做的改進,提出了GE2E ...
論文: X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION 思想: X-VECTORS是當前聲紋識別領域主流的baseline模型框架,得益於其網絡中的statistics pooling層 ...
論文: CN-Celeb: A CHALLENGING CHINESE SPEAKER RECOGNITION DATASET 思想: 論文的貢獻在於提供了一個非約束條件下的大規模中文說話人識別數據集,該數據集包含環境、通道與情感的變化。這是與現目前大多數開源 ...
聲紋識別,也稱說話人識別,是一種通過聲音判斷說話人身份的技術。聲紋識別可以分為說話人辨識(Speaker Identification, SI)和說話人確認(Speaker Verification, SV)。SI指將待測語音與已知集合內若干說話人比對,選取最為匹配的說話人;而SV指對於一個目標 ...