基于注意力联合卷积网络的端到端语音增强算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:q137301947
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强的目的是通过设计一种高效的信号处理算法,去除带噪语音中的各种干扰噪声,恢复出干净的增强语音,同时要保证增强语音有较高的恢复质量和可理解度。传统的语音增强算法在使用前需要对语音和噪声信号做出严格的假设,这限制了其在一些复杂的现实场景中的应用。近年来,无需任何假设、具有强数据建模能力的神经网络得到研究人员的广泛关注,成为本领域的主流算法。本文主要针对提高卷积神经网络全局建模水平和语音增强能力展开一系列研究。虽然卷积运算擅长关注输入语音信号的局部细节,但是其感受野十分有限,很难捕获全局信息,因此需要堆叠多层来学习语音信号的上下文依赖关系。然而随着层数的加深,网络中又会产生许多冗余的信息,逐层传递后不利于网络的学习。为了解决上述问题,本文将三种不同类型的自注意力机制与卷积神经网络结合,从多个角度帮助网络获取语音信号的全局信息,聚焦有效特征,抑制冗余特征。具体的研究内容如下:(1)本文以Wave-Unet卷积神经网络为基本结构,将Stand-alone全注意层与Wave-Unet结合,提出了一种新的语音增强模型Wave-sa-Unet,通过将CLP层输出的语音特征图送入Stand-alone全注意层中进行像素聚焦和特征重构,有利于帮助模型关注有用信息,抑制冗余信息。同时本文采用端到端的语音增强框架,通过合理设计网络结构,省去了复杂的语音特征提取过程,直接将带噪语音信号送入模型进行训练,输出净化后的语音波形。此外本文将尺度不变信噪比作为模型的目标函数,通过直接优化该种语音测评指标来提升网络模型的语音增强能力。实验结果表明,相比于Wave-Unet基线模型,Wave-sa-Unet产生了0.54d B的尺度不变信噪比增益。(2)在所提出的Wave-sa-Unet基础上,引入非局部模块和通道挤压-激发机制两种自注意力机制,提出了一种多注意力联合卷积的语音增强模型Wave-maUnet,三种自注意力机制从不同角度对卷积网络进行辅助和校准,帮助网络进一步提升去噪水平和语音增强能力。实验结果表明,在Wave-sa-Unet基础上,Wave-maUnet产生了0.66d B的尺度不变信噪比增益。
其他文献
随着物联网、5G等技术的发展,每日新增的数据量呈指数式爆炸性增长,这些来自于各种新兴应用场景如远程医疗、智能汽车驾驶、智慧城市等方面的数据,对服务的URLLC(Ultra Reliable Low Latency Communication,超可靠低延迟通信)提出了更为严苛的要求。为更好的满足这些要求,移动边缘计算(Mobile Edge Computing,MEC)应运而生。而移动边缘计算中一个
随着各种无线应用的不断涌现,无线网络对频谱资源的需求不断增多。而无线频谱资源的不足严重限制了无线网络的发展。可见光通信凭借其丰富的频谱资源、低廉的成本、超高的传播速度成为一个极具前景的无线传输技术。在可见光通信中广泛存在着由于器件非线性引起的非线性失真。而可见光通信系统通常采用的直流偏置光正交频分复用(DCO-OFDM)调制方式存在峰均功率比高的问题,信号容易进入非线性区域,产生非线性失真。当前对
光纤弯曲传感器在建筑、航空、医药、平面度监测、机械结构弯曲角度测量等多个领域都有着广泛的应用和重要意义。随着材料技术的发展,传感器在朝着精确、灵敏、智能化、网络化、低成本、易于加工的方向发展。光纤传感器由于其固有的优势受到了科研人员的广泛关注,而增敏型塑料光纤弯曲传感器有着制作简单,可判断弯曲方向,能有效增大光纤弯曲时的传输损耗灵敏度和动态测量范围,可用于分布式光纤传感等优点。随着图像处理器等高性
细粒度图像分类是计算机视觉领域中的一个重点研究方向,由于细粒度图像数据存在难以收集与标注昂贵的特性以及细粒度类别间相似度高的特点,其识别难度往往远高于通用图像数据的识别。现有的细粒度图像分类方法尽管在一定程度上缓解了类间差异小的问题,但这些方法的训练却倾向于依赖大量数据,而在样本量少的情境下无法很好地完成分类。为了解决上述问题,研究人员提出了针对细粒度图像分类场景下的小样本学习方法,这些基于小样本
随着通讯技术和传感器技术的快速发展与普及,能够融合现代通信与网络技术的智能网联汽车(CAVs)将会逐渐替代普通人工驾驶汽车(HVs)。CAVs通过车与车、车与道路设施之间信息的交互,来具备感知周围环境的能力,从而做出智能的决策,以实现安全、舒适、节能、高效的行驶要求。当前交通存在由于信息滞后导致的交通震荡问题,该现象普遍出现在道路前方路口有红绿灯的情况。且现阶段研究对于道路上CAVs和HVs大量共
移动互联网的普及伴随着大量网络安全问题的出现,许多新型的网络攻击方式层出不穷,危机事件频发。我国互联网安全态势仍然严峻。如何应对网络攻击,保障网络安全是我们亟待研究的问题之一。面对日新月异的攻击手段,传统网络流量异常检测方法已经不适用于当前的网络环境。传统网络流量异常检测方法过于依赖对特征的人工选择,缺乏自适应性,面对新类型的异常检测准确率低;在面对海量高维流量数据时,难以有效提取其中的关键特征,
多智能体系统的分布式协同控制在很多领域有着诸多应用,例如,无人飞行器的编队控制,传感器网络的协同控制等。近几年来,随着学者的深入研究,多智能体系统的控制条件也被考虑的更加复杂和全面。比如,我们在考虑系统实现控制目标的同时,也希望能够达到减少通信次数,节省能量消耗的目的。为此,有学者提出事件触发控制策略和时间触发控制(采样控制)策略。这两类控制都是在控制器中引入触发时刻,使得智能体的控制器由原先的连
云计算作为二十一世纪初期的新兴事物,目前已步入较为成熟的发展阶段,其依托于虚拟化技术,将各类资源进行有效整合和管理,向用户提供了高效的计算服务和应用软件。近年来,图像处理、地震预测、基因组测序等应用程序生成的工作流日渐复杂,使得越来越多的工作流被提交到云中处理。为了满足各类场景下不同用户的计算要求,国内外云服务提供商纷纷升级扩展云数据中心,但是目前数据中心的资源利用率较低,使得高能耗问题成为云服务
在现代化的大型制造车间中,为节省人力、提高车间生产效率,大量企业都为生产车间和立体仓库引入了AGV系统。AGV(Automated Guided Vehicle,自动导航小车)是指装备有电磁或光学等自动导引装置,能够沿导引路径行驶,具有各种移栽及安全保护功能的运输车。企业在智能物流解决方案中使用AGV,不仅是为了实现内部物流的柔性化,更重要的是借此打通生产各流程,推进生产全过程的数字化,最终实现打
稀疏线性逆问题是指在测量矩阵已知的情况下从观测样本恢复出原始的稀疏信号,在现实生活中众多学科和领域发挥着重要的作用。在通信系统中,通过利用无线信道的稀疏特性,压缩感知理论和其中的稀疏线性求逆算法实现了信令开销的降低和用户容量的扩展。近年来,基于神经网络的稀疏线性求逆算法以其优异的重建性能和快速的收敛特性被广泛地研究。然而,这些机器学习算法忽略了传统迭代算法中的一个关键特征,那就是不同稀疏度的稀疏信