基于自动编码器和生成对抗网络的语音增强方法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:lck2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强是语音信号处理领域的一个重要分支。语音是人类用于交换信息的最便捷的手段,但是在各类语音通信、人机语音交互的场景中,语音信号经常受到各种噪声的干扰。语音增强作为避免或减少噪声干扰的方法与手段,受到了广泛地研究。过去的几十年里,大量的无监督的语音增强方法和有监督的语音增强方法被相继提出。较早提出的方法中,一般是先估计噪声谱,再从带噪语音谱中减去估计的噪声谱,从而获得增强后的语音谱。早期的方法经常假设语音和噪声是相互独立且服从高斯分布,但是噪声往往是随机的、非线性的且非平稳的,导致这些方法的效果不佳,如会残留许多噪声或者引起失真。近年,随着深度学习技术的发展,并且深度学习在语音相近领域的成功应用,基于深度学习的语音增强研究也正成为热点研究。在基于深度学习的语音增强系统中,深度学习模型被设计成一个精细的降噪滤波器或者叫生成器。同时,在大量平行语料的训练下,模型可以充分学习带噪语音和干净语音之间的复杂的非线性的函数关系。另外,模型训练一般是离线的,它能提取一些噪声的特征,因而它可以较好地抑制甚至滤除一些非平稳噪声。鉴于深度学习模型在语音增强中较好的性能,本文开展了大量的研究。首先,将深度降噪自动编码器(Deep AutoEncoder,DAE)用于语音增强的任务,并对该模型进行了一系列的研究;然后,将深度自动编码器与生成对抗网络(Generative Adversarial Network,GAN)相结合,提出了AECGAN网络并应用于本文语音增强中。基于DAE的语音增强方法,先将时域语音信号加窗分帧,再进行短时傅里叶变换,然后将多帧语音谱输入到模型中,输出单帧语音谱,并将输出语音谱进行波形重构,得到增强后的时域语音信号。该模型使用有监督的方法训练,使用L2正则化、Dropout、批标准化(BN)等方法泛化模型,使模型更具鲁棒性。实验结果表明,基于DAE的语音增强方法性能优于传统方法,提升语音质量的同时,还能提升语音可懂度。改进的基于AE-CGAN增强模型是一种端到端的时域语音增强模型,该模型的输入是时域语音信号,输出同样是时域语音信号。该模型无需对语音与噪声间的关系进行假设,无需人工提取语音特征,而是通过端到端的方式自动提取语音特征。AE-CGAN是一种结合自动编码器和生成对抗网络的综合学习框架,使用卷积神经网络,通过卷积网络强大的特征提取能力,将干净语音信号从带噪语音信号中提取出来。模型使用半监督的学习方式,并且联合显式损失函数和隐式损失函数,进行对抗式训练。为了使网络更轻更快更深更宽,模型使用全卷积网络、批标准化(BN)、Parametric ReLu激活函数,同时为了防止梯度爆炸,训练时加入权重裁剪(Weight Clipping),使网络参数保持在一个合理的范围之内。实验结果表明,基于AE-CGAN的语音增强方法优于传统方法和DAE的方法,去噪能力更强,经过处理后语音质量和可懂度大幅度提升,听起来比较饱满,不低沉,更为自然。
其他文献
<正>时下,"大数据"这词儿挺时髦,好友相聚,三句话不提"大数据"似乎都不好意思。然而,大数据到底是怎么回事,这玩意究竟能干些什么?恐怕连投巨资开发大数据的一些网络公司也说
随着董秀芳(2002)的出版,跨层结构词汇化的研究引起了语言学界越来越多的关注,不管是在跨层结构词汇化的理论研究方面,还是在单独的个案研究方面,都有了极大的发展。副词是汉语中相当重要的组成部分,副词中有相当一部分是从跨层结构发展而来的。本文研究的目的是要针对从跨层结构到双音节副词这一部分,对其进行更为详细的分析、描写、解释,试图在典型个案的基础之上,较为全面地考察从跨层结构词汇化为副词的形成与演化
目的:通过对血管性痴呆患者中医证候类型进行研究,分析岭南地区中医证候的构成特点。方法:纳入岭南地区血管性痴呆的患者9 8例,进行血管性痴呆的中医辨证量表评分,分析岭南地
董事制度为公司的权益资本和管理雇佣契约提供了治理上的安全措施.负有受托责任义务的董事同样需要激励机制的作用以使他们更好地为股东服务.在目前的制度环境下,让董事持有
火力发电厂建筑施工中,土建结构施工是整个施工中难度最高的环节,对施工的整体质量、电厂后期的工作安全程度,都会产生巨大的影响.因此,要根据施工要求使用合理的技术[1].本
一个天经地义的观点是,文学批评就是关于"文学"的批评。不过回望历史,文学批评的发展与演变却呈现出一个从寄生于文学到逐步与文学相分离的轨迹。当今的文化研究是文学批评走
棉花是世界上仅次于粮食的第二大农作物,它是农业的产品也是纺织工业的重要原料,在国民经济发展中担负着重要的作用。我国是世界上最大的棉花生产国之一,也是纺织品生产大国,棉花
在如今的互联网时代,业务发展越来越快,而技术研发的迭代速度却跟不上业务的发展速度无法追随业务发展的脚步,技术团队之间快速的协作交付,越来越成为团队业务制胜的一个关键因素。因此对于支撑团队协作的协作工具来说,也提出了更高的要求。目前京东研发人员近两万余人且研发工具众多,团队沟通交流困难、工具链断裂、信息孤岛、研发效能难以度量等问题已成为京东研发团队最头痛且无法忽视的问题。本文通过调研京东内外各团队协
随着我国公路隧道技术的蓬勃发展,隧道的形状不尽相同,曲线隧道渐渐出现在人们的视野中。隧道的坡度和曲率等因素会干扰火灾烟气的扩散运动,从而引起火灾事故,危害人身安全。因此,本文采用FLUENT软件,对纵向风下公路隧道火灾进行三维瞬态数值模拟研究。分析了隧道的纵轴面以及横断面的温度和浓度分布云图,且对拱顶以及人高区域沿程温度和浓度的变化趋势进行了详细的探讨,为隧道内发生火灾时的人员撤离和衬砌结构的防护
随着生产性服务业在全球范围内迅速崛起,其在很大程度上对全球“服务型经济”发展浪潮产生着推波助澜的影响。作为服务业的重要组成部分,生产性服务业不仅是我国产业转型升级