论文部分内容阅读
随着通信技术的发展,衍生出一系列通讯软件,如微信、QQ、飞信等,给我们的日常交流带来了极大的便利。但在进行语音、视频等交流时,大量流量的耗费导致了较高的通讯费用。WiFi网络的出现解决了这一难题,人们可以较低的费用随时随地接入网络,且不受时长限制,WiFi信号因其价格低廉且方便快捷而倍受欢迎。现在诸多企业、公司在日常交流、办公时更倾向于选择可供内部使用的、通讯环境较为安全的、网络开销小的通信软件,因此,开发出此类应用软件将有较为广阔的市场前景。目前关于局域网下的多用户通信相关的研究也较为丰富,本文将主要聚焦于语音通信的实现和优化方法。现有的基于移动终端的局域网实时语音通话的尝试有很多,也取得了显著的成果,但通信过程中存在的噪声、混音、回声等问题还是没有得到很好地解决。本文将结合深度学习相关算法,尝试解决以上几点困难,提高通话质量。首先,针对通话过程中存在的噪声问题,本论文引出了基于深度学习的语音去噪方案,给出了基于联合卷积-循环神经网络的语音增强算法,该算法基于数据驱动,可以精准地对声音信号建模,捕捉信号特征。但是该算法存在不足:当声音信号序列过长时,会导致序列远端的信号所携带的信息不能被准确捕捉,从而对预测结果造成干扰,影响模型的整体性能。为了解决这个问题,本文给出了一种基于自注意力机制的卷积-循环神经网络算法,克服了信号序列长时间依赖问题,即使处于序列远端的信号也能捕获到,因而抽取的声音信号特征向量表示得更加精准和清晰。其次,针对多用户通话中需要实现精准混音的问题,本文给出了基于自适应加权的混音方案,该方案中通过引入一个可变的衰减因子,其随着音频数据是否发生溢出而作出相应的调整,以使得声音信号的变化趋于平缓,减小音频的失真度。该方法很好地解决了传统混音算法如线性加权、箝位法等会出现的信号溢出、波形失真、爆破音等问题,有效地提高了通话质量。最后,针对通话中引入的回声问题,本论文给出了一种基于改进的均衡归一化的回声消除方案。该方案通过给每个自适应滤波器的系数按照一定的比例分配相应的增益,很好地解决了传统的最小均方算法存在的对非平稳信号适应性差的问题,且可以加快自适应滤波器在估计回声路径时的收敛速度,提高了算法运行的效率,较好地弱化了通话中的回声。