其他分享
首页 > 其他分享> > 声纹识别模型解析之VoxCeleb2

声纹识别模型解析之VoxCeleb2

作者:互联网

论文:   VoxCeleb2: Deep Speaker Recognition 思想:显然,VoxCeleb2是在voxceleb基础上扩充和改进,仍然是两个贡献点:   1)扩大声纹识别数据集,由voxceleb的1251说话人超过19万句子,到voxceleb2的超过6000说话人共计超过百万的语音句子,适用于噪声和非约束场景下的声纹识别任务;   2)相比VGG-M,采用更深更先进的resnet-34和resnet-50网络架构,能够进一步提升识别效果 模型:   本文的网络结构采用了两种相较于VGG层数更深的resnet结构,resnet通过多个res-block串联而成,每个res-block包含多层卷积层和跳跃连接机制。本文实验了两种resnet结构,resnet-34和resnet-50;此外,类似于VoxCeleb,VoxCeleb2也采用了全局平均池化层来缩减训练参数和接受任意长度的test样本输入 训练: 其中,d^2为样本对之间的欧式距离,y属于{0,1},y=1表示样本对属于同一类,y=0表示不属于同一类;这样,对于同一类之间的距离越小,损失越小;对于不同类之间的距离越大,损失越小;这就起到缩小类内间距,同时扩大类间间距至少margin的目的 实验结果: 结论:本文相当于在voxceleb上针对两个贡献点继续扩充和改进:   1)提供了一个更大规模(6000+speakers,over 100万utts)的声纹识别数据集,该数据来源于YouTube,同样适应于非约束性的数据场景;   2)采用相比于VGG-M深的多的CNN网络(resnet-34、resnet-50)进行说话人辨别和确认的基本框架,同样引入全局平均池化,一方面减少模型训练参数,另一方面test能够接受任意长度的输入;此外,resnet结构中引入了BN进行归一化,一定程度上加速训练过程 Reference: [1] https://arxiv.org/pdf/1706.08612.pdf(voxceleb) [2] https://arxiv.org/pdf/1806.05622.pdf(voxceleb2)  

标签:10,解析,音频,样本,resnet,50,test,声纹识别,VoxCeleb2
来源: https://www.cnblogs.com/zy230530/p/13657462.html