基于深层神经网络的多目标学习和融合的语音增强研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:mmllpp000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着智能终端机功能的增强和云端计算能力的提高,人和计算机之间的交流方式发生了很大的变化。而语音作为人类最重要、最常用和最方便的信息交换方式,自然成为不可或缺的媒介。在日常生活进行语音通信或者在军事通信中进行作战指挥时,常常伴随各种噪声干扰,这些噪声干扰不仅影响语音的质量和可懂度,同时也给后续语音识别和语音端点检测等处理带来困难。语音增强的主要目标就是从带噪语音中提取干净的原始语音,提高语音质量和可懂度。传统单声道语音增强算法基本都是无监督语音增强算法,通常会对语音信号和噪声信息的概率分布做一定假设,对平稳噪声处理比较好,但对非平稳噪声抑制能力较弱。近些年来,随着深度学习技术在语音领域取得重大突破,给语音增强提供一种有监督学习的解决方案和有望取得突破性进展的可能性。研究发现,基于深层神经网络(Deep Neural Network,DNN)的语音增强方法取得比传统语音增强算法很大的性能提升。本文围绕用回归DNN来拟合语音和噪声间的复杂非线性关系,着力解决低信噪比语音可懂度不高、噪声非平稳问题,然后通过多目标学习和融合技术,设计适用于实时应用的紧凑和低延时模型,最后在最大似然估计的框架下对基于时频掩蔽的DNN进行参数优化。首先,基于已有的DNN语音增强算法框架,本文研究不同的输入信息对系统性能的影响,解决在低信噪比情况下语音可懂度不高的问题。通过设计不同的输入特征,比如对数功率谱(Log power Spectra,LPS)和幅度谱(Amplitude Spectra,AS),研究回归深层神经网络的学习过程,基于不同特征之间的互补性,在输入层采取特征拼接,输出层对不同学习目标进行后处理,来同时提高语音质量和可懂度。其次,针对宽带(16kHz)语音数据上噪声不匹配的问题,本文提出了一种改进的动态噪声估计方法,利用双绝对门限、平滑策略以及与静态噪声融合,使得估计的全频带噪声更准确,并且使用噪声的子带特征和表征语音存在概率的掩蔽值(Ideal Ratio Mask,IRM)进行联合感知训练,在减少模型复杂度的同时可以提高模型对不可见噪声的泛化能力。再者,本文提出了一个基于DNN的多目标学习和融合语音增强框架,包括多目标学习和多目标融合两个阶段,能够在较小的模型复杂度和较低的延时情况下达到比较好的性能,更适用于实时语音应用。在多目标学习阶段,设计一个DNN模型来学习辅助信息,包括LPS特征、梅尔频率倒谱系数(Mel frequency Cepstral Coefficient,MFCC)和 Gammatone 频率倒谱系数(Gammatone Frequency Cepstral Coefficient,GFCC)以及每组特征对应的干净语音、动态噪声和IRM。在多目标融合阶段,用上个阶段学习到的辅助信息与原始带噪信号一起作为网络输入,在输出层同时预测LPS、MFCC和GFCC对应的干净语音和IRM信息。最后对这两个阶段DNN预测的干净语音做后处理融合。由于在DNN学习过程中引入了多个目标,利用多目标的自适应学习,两个阶段的DNN模型可以设计的很紧凑,降低模型复杂度,可以在较低延时的情况下保持不错的性能。最后,在概率分布框架下,对使用IRM作为目标函数的DNN,本文假设IRM预测误差服从广义高斯分布,并采用最大似然估计方法来优化DNN的参数。针对广义高斯分布不同的形状参数,本文分析和讨论了 IRM预测误差分布,选择合适的形状参数,相比于最小均方误差准则,基于最大似然估计的方法在所有客观指标上都有显著提高,缓解语音失真,保留更多语音高频部分。
其他文献
目的:评估不同冻贮载体在人类微量精子的冷冻保存技术中的应用效果。方法:在Pubmed、ScienceDirect、SpringerLink、Willey Online Library、CNKI、维普数据库、万方数据库检索
回顾分析1例剖宫产史外院误诊为人工流产不全的宫角妊娠临床资料,并对国内外宫角妊娠的相关文献进行归纳总结。目前宫角妊娠的病因尚不明确,可能与盆腔炎性疾病、生殖器官形
极片制造技术不仅影响锂离子电池的能量密度、循环寿命和安全性能,而且对降低废品率和电池制造成本具有重要作用,是电池制造的一个重要过程。在极片制造过程中,可能出现团聚
焊接过程的稳定性不仅和电源的性能有关,而且和送丝速度的稳定性有密切的关系.通常GMAW采用等速送丝配合恒压外特性电源,只有保证焊丝能均匀送丝才能产生有规律的熔滴过渡.本
通过对AutoCAD软件所具备的几何精确作图功能的研究,探讨在AutoCAD环境中以传统作图法原理按行程速比系数K精确设计平面四杆机构的新方法,进一步开发AutoCAD软件的辅助设计功能。