【摘 要】
:
随着信息化技术的迅速发展,身份认证已成为了越来越多应用场景中不可或缺的一部分。但是网络智能化带来了方便的同时也带来了隐患。声纹识别又称说话人识别,由于其可靠性、安
论文部分内容阅读
随着信息化技术的迅速发展,身份认证已成为了越来越多应用场景中不可或缺的一部分。但是网络智能化带来了方便的同时也带来了隐患。声纹识别又称说话人识别,由于其可靠性、安全性,还有经济便捷的特性,成为了发展空间广泛、商业价值重大的研究热点之一。将神经网络应用在声纹识别中能够大幅提高识别准确率,但是由于声纹识别的研究时间较短,所以仍然有很多问题尚未解决:现有的声纹识别大多需要待识别语音的文本内容一致,即文本相关,但是在实际应用中文本无关的识别应用更广泛;声纹识别需要大量的目标说话人语音数据,如果数据较少会使模型训练不充分、准确率下降;在提取说话人模板时通常使用随机选择样本的方法,但是噪声会使随机选择的方式产生误差;除此之外,语速对现有的声纹识别系统准确率有很大影响,但是还没有针对此现象提出的有效方法。本文主要研究基于神经网络的文本无关说话人确认系统,采用梅尔频率倒谱系数(MFCC)作为语音特征参数,搭建基于深度神经网络(DNN)的声纹识别系统作为基线系统。为了解决在目标说话人数据不足时错误率大幅提升的问题,本文对基线系统做出了改进,最终将改进模型的准确率提高了近10%。其次,本文基于迁移学习原理对基线系统的训练方式做出了改进,同时为了解决说话人模板选取随机性引起的误差问题,使用k-means算法来选择说话人模板,降低了由噪声引起的误差。在此基础上,本文探讨了不同帧数作为输入对准确率的影响,并且加入对多条相似度结果投票判断的步骤,进一步提高了准确率。最后,由于同一说话人不同语速的语音在文本无关的说话人识别中很难被识别正确,所以本文实现了深度置信网络和深度神经网络的混合模型(DBN-DNN),将神经网络学习目标从分类改为判断两条语音模板是否是同一说话人,改善了相似度对比容易有误差、改变说话人语速准确率低的现象。本实验在训练时加入生成的不同语速语音,将识别准确率提高了7%以上,提升了模型的鲁棒性。
其他文献
面向服务架构(SOA)用开放的标准把企业的业务功能包装成标准的服务,这种服务通过明确的、与实现无关的接口来定义,服务被松散绑定,并且可以通过强调位置透明性和互操作性的通
库存管理是企业管理的一项重要工作。设置合理的库存对于保证企业的生产和满足市场需求、增强生产计划工作的灵活性、增强企业抵御原材料市场变化的能力等方面有着十分重要的
无机微纳米粒子由于自身尺寸小而具有较大的表面能,产生了严重的团聚现象;另外,无机粒子与高分子材料的极性差异还导致它们之间的相容性较差。这些问题严重影响了微纳米粒子
汽车后视镜作为汽车外表面的主要凸起物,一方面影响汽车行驶时的动力性,另一方面由于流动气体与固体边界的作用,后视镜附近区域会形成较大的气动噪声,经由车窗传递至车内。本文重点关注后视镜对汽车高速行驶时气动噪声的影响,考虑后视镜附近湍流流动状态及气动噪声发生机理,且根据企业项目数据,提出两种后视镜优化方案:方案一为改变后视镜镜罩倾斜角度,使其与汽车纵轴平行,方案二为改变后视镜安装基座尺寸。尝试通过研究并
政治参与是政治行为的重要组成部分,是现代民主理论的一个重要概念,也是衡量民主的一个重要尺度。女性作为政治参与的主体,是不可忽视的一个政治主体。女性参政是实现男女两
电力价格与财务稽查是电力价格与财务监管的重要组成部分,是维护电力市场秩序、保证电力市场安全运行、平衡电力市场各方利益的重要手段。电力监管委员会对电力价格与财务稽
项目课程是针对我国职业教育所面临的现实问题所构建的一个理论新框架。黑龙江农业工程职业学院设施农业技术专业积极进行课程模式改革的实践探索,构建了能力本位的项目课程
保健品产业是21世纪代表人类健康发展方向的朝阳产业,目前正在世界范围内高速发展。随着我国市场经济的高速发展和城乡居民消费水平的日益提高,大家对保健品的认知能力越来越
我国的经济体制从“计划”到“市场”经历了一个曲折、漫长的过程。如果从十一届三中全会党的工作重心的转移到党的十四大正式确立建立社会主义市场经济体制的目标,这个过程有
糖尿病足坏疽,是由于糖尿病合并神经病变以及各种不同程度的下肢血管病变而导致的下肢感染、溃疡形成和(或)深部组织的破坏。糖尿病足坏疽是糖尿病的严重合并症之一,临床多见,