基于注意力融合卷积神经网络的语音增强算法研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wjkylin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强技术的目的是净化被干扰源破坏了的带噪语音,恢复出干净的说话人信号,在此过程中保证语音信号的质量和可懂度是本领域学者不懈追求的目标。目前基于数字信号处理技术的传统语音增强算法在周围环境变得恶劣或者不再满足设定条件时,会产生严重的噪声残留或者语音失真致使听力设备无法工作。为了解决上述问题,近年来基于深度学习的语音增强算法开始兴起,能够在极低信噪比和复杂背景下恢复出干净语音,取得了令人瞩目的成绩。其中,卷积神经网络能在保证去噪效果的前提下大幅减少模型的参数量,得到了研究人员的广泛关注。然而,卷积运算的感受域有限,很难对全局语境进行建模,这限制了模型进一步提升的空间,不利于增强语音的恢复。为了解决上述问题,本文主要研究通过注意力机制提高卷积网络获取全局语境的能力,进一步提升语音增强的性能。本文先是提出了一种用于单通道语音增强的注意力强化全卷积神经网络AAUNet,将一种二维相对自注意机制应用到全卷积网络中,具体做法是将卷积运算与注意力机制产生的输出在通道方向拼接起来生成新的特征图,通过调整注意力通道所占的比例,可以在卷积关注局部细节和自注意力获取全局语境之间找到最优组合。实验结果表明,AAUNet在多种未知噪声和信噪比条件下超越了所有对比方法,提高了模型的去噪能力。然而,本文在实验中发现,当注意力机制的通道数占比为100%时,模型的语音增强性能出现了下降,针对这一问题,本文又提出了一种基于独立自注意机制的语音增强模型SAUNet。独立自注意机制可以自由设置运算区域的大小,通过多值矩阵提升基于距离的感知能力。实验结果表明,SAUNet相比于AAUNet需要的参数量更少,且在PESQ和STOI评估指标上分别提高了 7.93%和4.16%,对语音质量、可懂度和未知噪声抑制等方面的性能提升更加显著。
其他文献
[目的]为叶用银杏的氮肥管理提供参考.[方法]采用盆栽试验,以2年生半同胞家系银杏苗为试验材料,在银杏生长高峰期(5月下旬)施加不同水平铵态氮(0、1、2、4 g/盆),于8月下旬分别测定银杏单叶干质量、单叶面积、比叶干质量、光合色素含量、硝态氮含量、铵态氮含量、硝酸还原酶活性、氮磷钾含量、黄酮醇苷类成分及总黄酮含量,筛选有利于银杏叶片生长、生理代谢和品质提高的外施铵态氮水平.[结果]外施铵态氮水平显著影响银杏叶片的生长、生理和品质,每盆外施铵态氮水平为2 g时,单叶面积、单叶干质量和比叶干质量均达到最高
近年来,随着人类科技的不断进步,各类电子设备也越来越频繁地出现在我们的生活之中,而在这个过程中电路板正发挥着不可替代的作用。手机、笔记本电脑、数字相机等电子产品的普及对电路板的轻便性和可靠性提出了挑战,传统的印制电路板已经不能满足用户们日益增长的消费需求。柔性电路板(Flexible Printed Circuit,FPC)成为电子产品微型化和移动要求的最佳解决方案。FPC本身材质脆弱且工艺复杂,
近年来,得益于5G时代下高速率、低时延等通信特性的支持,作为空中用户接入到现有蜂窝网络的无人机,即网联无人机,在农业植保、勘探巡检等多个领域都受到了广泛的关注。由于无人机自身计算能力有限,边缘计算技术被创新性地应用于网联无人机通信系统,无人机可以将自身任务卸载到装备了边缘计算服务器的地面基站进行远程计算,以应对实时观测、视频识别等计算密集型任务。对于利用边缘计算的网联无人机通系统,如何规划无人机轨
场发射扫描电子显微镜由于专业性和有效性,已成为医学和材料科学领域的基础研究工具。但是,场发射扫描电子显微镜仍然存在着两个方面的问题,一方面是其核心器件的研发周期长,成像放大倍数很难进一步提高;另一方面场发射扫描电子显微镜的分辨率与其视野之间存在着固有的内在矛盾。为了解决以上问题,我们将超分辨任务引入电子显微镜领域,提出了两种基于深度学习的超分辨算法作为电子显微镜的辅助方法,同时获得较大的视野和超高
[目的]明确德宏州油茶炭疽病病原种类及其生物学特性,为油茶炭疽病的综合防控提供一定的参考依据.[方法]以油茶疑似炭疽病的叶片为材料,采用组织分离法分离病原菌,利用形态学结合ITS序列分析所获得菌株的分类地位,再回接油茶离体叶片验证其致病性及进行复合侵染实验,最后对病原菌的生物学特性进行研究.[结果]德宏州油茶炭疽病发生严重,野外调查发病率达84%,病情指数达33.明确了油茶炭疽病的病原菌为果生炭疽菌(Colletotrichum fructicola)和暹罗炭疽菌(C.siamense).分离代表性菌株D