【摘 要】
:
说话人识别是一种利用语音来辨识说话人身份的技术。近年,发展出了以i-vector和x-vector为主的说话人识别方法,但两者都是独立于背景噪声进行研究的,并没有充分考虑干扰环境对说话人识别性能的影响,导致在各类现实应用场景下的说话人识别性能不佳。经典的语音增强方法,如谱减法等,虽在语音识别、语种识别等多方面得到了有效应用,但对于说话人识别的性能表现却与之有所不同。在对背景噪声进行抑制的同时也对说
论文部分内容阅读
说话人识别是一种利用语音来辨识说话人身份的技术。近年,发展出了以i-vector和x-vector为主的说话人识别方法,但两者都是独立于背景噪声进行研究的,并没有充分考虑干扰环境对说话人识别性能的影响,导致在各类现实应用场景下的说话人识别性能不佳。经典的语音增强方法,如谱减法等,虽在语音识别、语种识别等多方面得到了有效应用,但对于说话人识别的性能表现却与之有所不同。在对背景噪声进行抑制的同时也对说话人语音的声学结构造成较大破坏,导致经噪声抑制的说话人识别性能仍不尽人意。由此,本文围绕干扰环境下说话人识别的鲁棒性展开研究和探讨。首先,通过研究滤波器组系数(Filter Bank,Fbank)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)以及感知线性预测系数(Perceptual Linear Prediction Coefficient,PLP)三种不同语音特征在i-vector和x-vector说话人识别模型上的说话人识别性能,实现对说话人语音特征的筛选。其次,针对传统谱减法在对背景噪声抑制的同时也对说话人语音的声学结构造成破坏,制约着说话人识别性能的问题,提出构建深度神经网络(Deep Learning Network,DNN)语音增强作为说话人识别的前置处理单元,以减少干扰环境对说话人识别的影响。最后,为弥补语音增强对说话人语音带来的失真问题,在DNN语音增强网络作为说话人识别的前置处理单元基础上构建生成对抗网络(Generative Adversarial Network,GAN)来对说话人注册语音进行数据扩张,实现对注册说话人的身份特征矢量增强,最终获得基于DNN去噪与身份矢量增强的说话人识别模型,进一步提高了干扰环境下的说话人识别性能。在多类型干扰环境下的说话人识别测试结果表明,在嘈杂噪声干扰条件下,基于DNN去噪与身份矢量增强的说话人识别相对于x-vector基线模型的说话人识别等错误率(Equal Error Rate,EER)与最小检测代价函数(Minimum Detection Cost Function,Mindcf16)平均性能指标分别提高了61.92%与20.32%;在工厂噪声干扰条件下,本文所提方法相对于基线模型的EER与Mindcf16平均性能指标分别提高了48.15%与11.45%;在音乐噪声干扰条件下,本文所提方法相对于基线模型的EER与Mindcf16平均性能指标分别提高了55.00%与18.21%;在交通噪声干扰条件下,本文所提方法相对于基线模型的EER与Mindcf16平均性能指标分别提高了56.46%与20.69%。综上所述,本文所提算法模型显著提高了干扰环境下的说话人识别性能。
其他文献
营销实践范式从传统营销向关系营销转变,在以消费者为中心的理念下,注重与消费者互动、深入发掘消费者价值的品牌社群成为近年来营销界的热门现象。品牌社群是由企业与共同关注特定品牌的消费者聚集、参与、彼此互动而形成的关系集合体,在网络日渐渗入日常生活的现代社会,以线上社交媒体为平台建立的虚拟品牌社群更是蕴藏着巨大的发展潜力与营销价值。同时,理论界也开始重视对虚拟品牌社群的研究,以往文献着重于对虚拟品牌社群
目前世界上最先进的采煤工艺是综合机械化采煤,简称"综采"。其先进在于"破、装、运、支、处"等主要环节全部实现了机械化,中间环节大大减少了人力的参与。本文通过分析综采工
目标检测算法作为计算机视觉领域的基本任务之一,近几十年来得到了广大学者的广泛研究,产生了一系列优秀的研究成果。图像目标检测任务在过去几年间取得了巨大的进展,检测性能得到明显提升。但在视频监控、车辆辅助驾驶等领域,基于视频的目标检测有着更为广泛的需求。由于视频中存在运动模糊,遮挡,形态变化多样性,光照变化多样性等问题,仅利用图像目标检测技术检测视频中的目标并不能得到很好的检测结果。如何利用视频中目标
大力提升安保力量的智能信息化水平——特别是针对特殊安保场所,推进智能化目标追踪动态手段管控,对于提升公安社会管理效率具有重大意义。为此,本文针对实时视频监控过程中特定目标跟踪算法进行了相应研究与改进。本文主要研究内容如下:(1)研究实时监控领域单目标追踪相关算法,特别是目标物体外观模型常见构建方法与匹配准则表示方法。(2)研究稀疏表达的基础理论与特征融合策略方法:针对传统目标追踪算法物体外观模型描
科学研究证明,人体内肠道菌群的内环境状态能够有力的反映出一些疾病的风险,比如肠易激综合征、结直肠癌(Colorectal Cancer,CRC)、糖尿病、肥胖等。现阶段医疗最主要的问题在于资源分配不均,同时各个环节处理效率比较低,AI技术可以帮助优化资源分配、提高医疗各环节的效率、提升诊疗效果。目前人工智能技术与医疗健康领域的融合不断加深,正在不断提升医疗服务水平,并且在电子病历、医疗影像辅助诊断
2020年“中央一号文件”提出,强化“三农”信贷的货币、税收、监管政策的支农作用,给予农业信贷低成本的资金支持,降低农业贷款风险,优化精准扶贫措施,这是21世纪以来第17个指导“三农”的中央一号文件。黑龙江省作为我国的农业大省,需要大量的资金用于农业生产,农业贷款市场空间巨大。近些年来金融支农发展迅速,但目前黑龙江省农业贷款供求失衡、匹配度较低,金融支农效果并不显著,这严重的制约了黑龙江省农业贷款
口蹄疫(Foot and month Disease,FMD),是由口蹄疫病毒(Foot and month Disease Virus,FMDV)引起猪、羊等偶蹄类动物口腔、蹄部等部位发生水疱及溃烂的一种急性、热性、高度接
随着物流行业的快速发展,供应链风险事故频发,且供应链风险能够在各节点之间相互传染,对供应链造成较大范围的影响。新零售作为一种融合线上、线下以及现代物流的新型零售模
习近平同志在十九大报告中强调,中国特色社会主义进入新时代,我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。首次提出实施乡村振兴战略,要坚持农业农村优先发展,按照产业兴旺、生态宜居、乡风文明、治理有效、生活富裕的总要求,推进农业农村现代化发展。绿色发展是新时代乡村振兴的必由之路,为乡村振兴提供新的动力支撑。绿色发展是落实新发展理念的客观要求,是畜牧业现代化的必由之
能源是与人类社会发展息息相关的重要组成部分。汽车、制造业等行业的快速发展引发了润滑油消费的迅速增长,大量废润滑油随之产生。润滑油中基础油主要来源于石油馏分,将废润滑油通过物理、化学方法再生为基础油不仅可以节约石油资源而且可以保护环境,实现可持续性发展。目前工业上对废润滑油再生常用的方法为减压蒸馏-吸附法,通过固体吸附剂对废润滑油减压蒸馏后的馏分进行吸附脱色精制,具有操作简单、危险系数小、成本低、效