论文: VoxCeleb2: Deep Speaker Recognition 思想:显然,VoxCeleb2是在voxceleb基础上扩充和改进,仍然是两个贡献点: 1)扩大声纹识别数据集,由voxceleb的1251说话人超过19万句子,到voxceleb2 ...
论文: Deep Speaker: an End to End Neural Speaker Embedding System 思想: Deep Speaker是百度提出的一种端到端的说话人编码方法。该方法采样ResCNN或GRU进行帧级别的特征提取,然后时间平均层将输入序列帧级别的特征转化为句子级别的特征表达,彷射变换层将编码映射到指定维度,长度归一化层输出便于cosine相似度计算 模型预训 ...
2020-09-12 17:20 0 1604 推荐指数:
论文: VoxCeleb2: Deep Speaker Recognition 思想:显然,VoxCeleb2是在voxceleb基础上扩充和改进,仍然是两个贡献点: 1)扩大声纹识别数据集,由voxceleb的1251说话人超过19万句子,到voxceleb2 ...
论文: End-to-End Text-Dependent Speaker Verification 思想: google提出的文本相关的说话人确认,通过DNN或LSTM的网络结构提取说话人特征表达;然后注册阶段输入说话人的多个文本相关句子(考虑环境噪声等干扰 ...
论文: ATTENTION-BASED MODELS FOR TEXT-DEPENDENT SPEAKER VERIFICATION 思想: 可以看作是在Google15年提出的d-vector算法的改进, 1)采用可学习的带权重和偏置的cosine ...
论文: GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION 思想: 本文是在Google上一篇论文attention-based model(TE2E[1])的基础上,针对损失函数做的改进,提出了GE2E ...
论文: X-VECTORS: ROBUST DNN EMBEDDINGS FOR SPEAKER RECOGNITION 思想: X-VECTORS是当前声纹识别领域主流的baseline模型框架,得益于其网络中的statistics pooling层 ...
论文: CN-Celeb: A CHALLENGING CHINESE SPEAKER RECOGNITION DATASET 思想: 论文的贡献在于提供了一个非约束条件下的大规模中文说话人识别数据集,该数据集包含环境、通道与情感的变化。这是与现目前大多数开源 ...
声纹识别,也称说话人识别,是一种通过声音判断说话人身份的技术。声纹识别可以分为说话人辨识(Speaker Identification, SI)和说话人确认(Speaker Verification, SV)。SI指将待测语音与已知集合内若干说话人比对,选取最为匹配的说话人;而SV指对于一个目标 ...