基于端到端神经网络的声纹识别模型研究

来源 :武汉邮电科学研究院 | 被引量 : 1次 | 上传用户:jimchenstong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代信息科技不断发展和进步的21世纪,基于生物特征进行身份认证的技术也在不断改进和日益成熟,声纹识别因具有远距离、多设备采集数据等独特优势,在其技术发展的50余年中逐步趋于商业化。但目前互联网大规模的语音数据包含各种问题,例如多信道,多种背景噪声,语音时长过短等,而传统的声纹识别方法不仅步骤繁琐,在大规模数据的条件下模型性能还会明显下降。针对上述问题,本课题主要研究了基于端到端神经网络的声纹识别模型,将不同的语音段映射到一个高维的嵌入空间中,通过嵌入间的距离比较说话人之间的相似性。首先,本课题选择FBank作为端到端模型的声学特征,并提出基于频域卷积的Res-FD-CNN主干网络,该网络利用残差网络中的残差块结构和独立卷积层进行重复堆叠,以提取到高层帧级别特征,同时添加频域卷积层作为最后一层卷积重点学习频域信息,并通过时间平均池化层提取到深度说话人嵌入。实验验证了ResFD-CNN主干网络在计算量小于标准ResNet结构的前提下同样能达到较优的效果。其次,本课题结合Res-FD-CNN主干网络和三元组损失函数组成基于特征间欧氏距离的声纹识别模型,该模型通过Softmax损失函数进行预训练,使高维的嵌入空间上能够初步划分类别分类面,减小三元组损失的训练难度。设计实验同时对比了两种不同的三元组挖掘策略,其中在预训练模型的基础上只训练最困难的三元组比训练所有不满足条件的三元组效果更好。最后,本课题构建了基于分类网络的端到端声纹识别模型,选择基于角度域改进的A-Softmax作为损失函数,并利用一种拼接相同说话人下不同短语音的训练方法,使该模型学习到的嵌入空间中对于不同类别的特征间始终存在一定的角度间隔。设计实验验证了该模型优于基于三元组损失的声纹模型,推导出基于角度间隔改进的损失函数更适用于大规模、多类别的语音数据训练,能得到类别区分性更好的深度说话人嵌入以及泛化能力更强的声纹识别模型。
其他文献
不少人常说中国的基础教育水平是全世界最好的,教育部门也这样认为,一直到本科阶段教育质量都是最好的,只是研究生阶段在创造力竞争力等方面不如美国。前年十月《中国青年报》就
售后零部件物流服务是汽车物流的最后一块蛋糕,同时也是作业难度最大的一块,但通过需求品种分布分析和ABC分类法,难题迎刃而解
应用尾流理论推导了滩地种树的复式断面河渠水流归槽长度的计算式,其计算结果与物理模型试验实测结果较为吻合.
审计是一种经验型的职业,审计师作为具体审计业务的执行者,其个人经验直接影响着审计行为及业务质量。随着审计经历的増加,审计师的经验不断丰富,对整个审计过程越来越了解,这有助于审计师准确寻找被审计单位的潜在风险点,抑制公司管理层的盈余操纵行为,确保审计质量。近些年,审计师面临的监管和诉讼风险在增加,重要客户发生审计失败的概率变大,客户重要性可能通过审计师的声誉损失成本和风险意识而增强审计经验对审计质量
本文就儿童依仿的概念,类型,影响其发展因素及临床意义等方面进行综述。
利用三维有限元方法,研究了双层地基土中超长桩的承载性状.利用线弹性模型模拟桩身混凝土的应力应变关系,邓肯-张非线性弹性模型模拟地基土,河海大学薄单元模型模拟桩一土间的非
随着网络的普及便捷和地理信息相关网络应用程序的发展,地理信息不仅应该被专业人员使用,应该在更普遍范围的人群中应用和服务。在此背景下,地理信息公共服务平台的建设成为
二氧化硅种类繁多、应用广泛,纳米二氧化硅因其独特的性质在生物传感器、药物载体、生物活性物质载体等生物医药领域吸引了大量研究者的目光。纳米二氧化硅是典型的肺毒物,其