论文部分内容阅读
随着智能手机的普及,人机语音交互技术又一次迎来了发展的机会,如何让人机语音交互变得方便高效成为近年来的研究热点。语音分离作为人机语音交互技术中的核心问题,是自动语音识别、语言自动翻译、说话者识别等技术的有力支撑。由于很多人机语音交互的实际应用场景中只有一个语音输入设备,单通道语音分离技术受到许多研究人员的关注。以听觉场景分析理论为基础,研究人员提出了基于计算听觉场景分析的单通道语音分离系统。这种语音分离系统的处理过程与人类听觉系统感知语音信号的过程类似,经过不断的改进,取得了较好的分离效果。本文对计算听觉场景分析的相关理论和算法进行了研究,详细的介绍了目前比较先进的Hu-Wang系统。并在Hu-Wang提出的单通道语音分离系统的基础上,提出了一些改进方法,本文主要的创新点如下:1.本文通过使用数学形态学图像处理技术,对CASA系统进行初步浊音分段得到的二值掩码图进行了改进。传统的CASA系统使用固定的阈值来进行浊音的初步分段,导致得到的二值掩码图中包含了残余的噪声和破损的语音。CASA系统后续的基音检测和组合过程都是以这个二值掩码图为基础的,不准确的二值掩码图会严重的影响CASA系统的语音分离结果。本文利用数学形态学图像处理技术,在二值掩码图的高频区域利用开运算消除噪声,在低频区域利用闭运算修补目标语音。实验表明,该方法能有效的提高初步浊音分段结果中目标语音信号的比例。2.针对Hu-wang串联语音分离系统在控制迭代过程中的不足,本文提出了一种基于语音客观评价算法改进迭代过程的方法。具体的做法是,对每一次迭代的结果,都经过后续的处理过程形成语音文件,将语音文件进行p.563语音质量检测,通过语音质量检测的结果来决定是否需要再次进行迭代。实验证明利用语音客观评价方法控制迭代流程要比传统方式更好。第一,客观语音质量评价算法可以根据每次迭代后目标语音的MOS-LQP评分值来控制迭代过程,让整个语音分离系统能够适用于不同的使用场景和不用的需求。第二,Hu-Wang系统中将数据是否收敛作为终止迭代系统的一个指标,而语音的客观评价标准比这个指标更具有权威性,更适合用来控制迭代流程。