基于深度学习的语音分离技术

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:digitalmachinel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网的快速发展,语音分离技术已广泛运用到诸如助听器、移动通信、智能家居设备和语音信号处理等研究领域中,得到了越来越多研究者的关注。由于现实环境中噪声的干扰,如何高效,快捷地获得干净的目标语音信号,一直是研究中的一个热点问题。基于深度学习的语音分离技术将语音分离任务转化为一个机器学习的过程,与传统语音分离技术相比,有着重要的研究意义和广阔的研究前景,可广泛用于助听器设备和语音识别的前端模块。为了提升基于深度学习的语音分离系统应用的性能,通过对系统不同模块算法进行研究,重点研究了基于长短时记忆网络的语音分离系统算法。长短时记忆网络可以更好地利用语音的时序相关性,但存在训练耗时较长和语音质量等性能有待进一步提升等问题。本文从优化模型角度出发,针对长短时记忆网络内部三个门结构的特点,为减少计算成本、缩短训练时间,分别以双门结构的门控循环网络单元和单门结构的循环网络单元构建语音分离系统。根据仿真实验发现,使用门控循环网络单元在缩短训练时间的同时可以实现语音分离性能的提升。在此基础上,为获得更好的系统语音分离性能,提出以下两点改进:(1)使用门控循环网络结构提升语音分离性能时,存在各性能指标提升不平衡的现象。从模型的训练准则角度出发,发现传统的均方误差不能很好地与语音评价指标相匹配。通过命中率减误报率指标的计算原理对模型的训练准则——损失函数进行改进,提出通过加权调和平均计算融合语音评价指标与预测和真实值之间差距的自定义损失函数,使目标语音在趋近于理想输出的同时,更好地与语音评价指标相匹配。通过实验证明,改进的损失函数可以有效提升语音分离系统的命中率减误报率、短时可懂度和语音感知评价指标,使系统获得更好的语音分离性能。(2)为进一步提升语音分离的性能,在改进模型内部结构和训练准则的基础上,从模型整体结构出发,结合注意力机制原理和人耳的掩蔽效应对模型输入和输出部分进行改进。对输入信号施加自注意力机制,获得可以区分目标语音主导帧单元的带注意力权重序列,经过门控循环网络后,在输出部分施加注意力机制,使最终结果更关注于目标分离语音。通过实验证明,本文提出的结合注意力机制的模型结构可以有效提升分离语音的短时可懂度和语音质量感知评价,实现了对分离语音中噪声的进一步抑制。最后,对所做工作进行总结和分析,总结了本文的研究成果和不足之处,并对未来进行展望。
其他文献
通常体内细胞与周围细胞和胞外基质之间存在紧密相关的生理活动。传统的细胞离体培养都是二维培养,脱离了在体所具备的最佳生长环境,细胞的形态、迁移、增殖、分化和基因表达等生理过程会受到一定的影响。细胞三维培养方法克服了传统二维培养的缺点,通过生物材料来构建支架或基质,在体外模拟细胞天然的微环境,来促进细胞间及细胞与环境间的联系和通信,接近细胞正常生理条件下的行为和功能。具有不同理化性质的生物材料均可用于
改革开放后,中国逐步放宽了外资企业的市场准入门槛,吸引了大量的外资企业涌入,同时市场经济的迅速发展和生活水平的提高,人们对产品品质和生活质量提出了更高的要求,推动了
自振射流具有的高频压力振荡及由此诱发的强烈空化作用,在淹没乃至高围压环境下可显著提高射流冲蚀能力,因此该技术在深海资源开采、深井石油钻探、海上救援等领域具有广阔应
随着经济的发展、社会的繁荣、时代的进步,传统老字号品牌的发展现状已不容乐观,同时它们的传统商业模式也已无法适应当下竞争激烈的商业社会。这些老字号品牌如何在高速发展
以白光发光二极管(LED)为基础的半导体照明和液晶背光源显示技术已经覆盖了社会的各个领域,与人们的生产生活紧密联系在一起。近年来,人们对白光LED光源及相关器件的品质化需
滚磨光整加工工艺能够有效的改善零件表面质量、提升零件的使用性能,广泛应用于航空航天、光电工程、汽车轮船、等机械结构的精密零件表面加工。磨液作为滚磨光整加工主要介质之一,对加工零件的表面质量和物理性能影响很大。但是,目前国内外对滚磨光整加工磨液的研究较为欠缺,实际生产中使用的磨液种类单一、成本高、重复利用性差,且对环境具有一定的污染性。为此,制备了高效、绿色环保的新型滚磨光整加工磨液,通过滚磨光整加
固体氧化物燃料电池(SOFCs)是一种具有高效转化率的环境友好型发电系统,镍-氧化钇稳定氧化锆(Ni-YSZ)阳极拥有良好的催化活性和化学与机械稳定性,是目前应用最广泛的阳极材料。除了阳极材料本身的性质以外,阳极的气孔结构及孔隙率也在很大程度上影响着电池的输出性能。研究表明通过改变孔道结构可以对三相反应界面(TPB)产生影响,根据Knudsen扩散理论,气体在定向孔道中的传输速率要大于非定向孔道,
癫痫症作为一种脑科疾病,神经科医生需要实时监控患者脑电状态来实现癫痫发作预测。人工方法不仅耗时,且受医生专业水平限制。因此使用计算机辅助诊断实现癫痫自动发作检测十分重要。但传统方法利用的数据局限于脑电信号本身的时间特征和频率特征而忽略了隐含的空间特征;同时,不平衡的脑电数据集对跨患者癫痫发作预测模型的性能造成不利的影响。本文通过深度集成网络实现对脑电信号多种特征的自动提取,并使用生成式对抗网络对脑
作为碱性阴离子交换膜燃料电池(AEMFCs)核心部件的阴离子交换膜(AEMs)一直面临电导率低、耐碱性差和尺寸稳定性差等问题。其中,被研究人员普遍关注的咪唑鎓盐和季铵盐AEMs仍存在耐碱性差的主要问题。因此,对此类AEMs进行结构优化或改性研究并提出耐碱性等性能提高的策略,具有重要的实际和理论意义。增加咪唑鎓盐的空间位阻能够提高其小分子的耐碱性。为此,本论文从结构设计角度出发,设计并研究咪唑环C2
深圳证券交易所于2004年5月27日成立中小企业板。自此,中小企业取得了快速蓬勃的发展。截至2020年2月,已有973家公司在中小板成功上市。中小板上市公司借助中小板市场扩展了