单通道语音分离关键技术研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户:ibm__1235
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能手机的普及,人机语音交互技术又一次迎来了发展的机会,如何让人机语音交互变得方便高效成为近年来的研究热点。语音分离作为人机语音交互技术中的核心问题,是自动语音识别、语言自动翻译、说话者识别等技术的有力支撑。由于很多人机语音交互的实际应用场景中只有一个语音输入设备,单通道语音分离技术受到许多研究人员的关注。以听觉场景分析理论为基础,研究人员提出了基于计算听觉场景分析的单通道语音分离系统。这种语音分离系统的处理过程与人类听觉系统感知语音信号的过程类似,经过不断的改进,取得了较好的分离效果。本文对计算听觉场景分析的相关理论和算法进行了研究,详细的介绍了目前比较先进的Hu-Wang系统。并在Hu-Wang提出的单通道语音分离系统的基础上,提出了一些改进方法,本文主要的创新点如下:1.本文通过使用数学形态学图像处理技术,对CASA系统进行初步浊音分段得到的二值掩码图进行了改进。传统的CASA系统使用固定的阈值来进行浊音的初步分段,导致得到的二值掩码图中包含了残余的噪声和破损的语音。CASA系统后续的基音检测和组合过程都是以这个二值掩码图为基础的,不准确的二值掩码图会严重的影响CASA系统的语音分离结果。本文利用数学形态学图像处理技术,在二值掩码图的高频区域利用开运算消除噪声,在低频区域利用闭运算修补目标语音。实验表明,该方法能有效的提高初步浊音分段结果中目标语音信号的比例。2.针对Hu-wang串联语音分离系统在控制迭代过程中的不足,本文提出了一种基于语音客观评价算法改进迭代过程的方法。具体的做法是,对每一次迭代的结果,都经过后续的处理过程形成语音文件,将语音文件进行p.563语音质量检测,通过语音质量检测的结果来决定是否需要再次进行迭代。实验证明利用语音客观评价方法控制迭代流程要比传统方式更好。第一,客观语音质量评价算法可以根据每次迭代后目标语音的MOS-LQP评分值来控制迭代过程,让整个语音分离系统能够适用于不同的使用场景和不用的需求。第二,Hu-Wang系统中将数据是否收敛作为终止迭代系统的一个指标,而语音的客观评价标准比这个指标更具有权威性,更适合用来控制迭代流程。
其他文献
随着软件系统复杂度的增加,软件的规模日益庞大。人们逐步认识到,要真正实现软件的工业化生产方式,达到软件产业发展所需要的软件生产率和质量,采用软件复用技术是一条现实可
随着现代城市的发展,地下空间已成为人民生活和经济活动的重要场所,也成为城市可供开发利用的重要资源。利用先进的地理信息系统技术和方法实现对城市已有工程勘察信息的管理,对
锅炉是工业过程中不可缺少的动力设备,为确保安全,稳定生产,对锅炉的自动控制十分重要,其中汽包水位是一个非常重要的被控变量。由于锅炉的水位调节过程具有非线性、不稳定性
随着信息化技术的不断发展,行业内部和行业间的业务数据量呈几何级数递增,海量数据的传输与处理难题成为制约信息化产业扩大的瓶颈,本文提出一种分布式海量数据并行传输设计
随着计算机网络技术、数据库技术的飞速发展,实时数据系统(RTDBS)的应用领域也越来越广。然而,越来越多的新的应用要求RTDBS在支持实时性的同时,也能提供对敏感信息的管理,如
多传感器图像融合技术是图像理解、计算机视觉等领域的一个研究热点,广泛地应用于目标识别、智能机器人和医学图像处理等领域,对国防安全和经济建设产生了重要影响,因此对图
本文通过比较国内外电力系统故障诊断方法和故障判断原则,提出了以专家系统为主,辅以模糊理论的方法,应用于变电站故障诊断仿真——对故障诊断结果可以确定的故障以专家系统为主;用模糊推理来处理故障诊断中不确定的信息。并详细介绍了知识库的建立过程。该变电站故障诊断仿真系统利用实际监控系统得到的开关和保护动作信息来诊断故障,根据保护和保护范围的对应关系,确定故障发生的位置。并提示运行人员应如何处理。本文提出所
随着多媒体技术的快速发展和图像信息的爆发性增长,图像数据库规模变得非常庞大,而这些图像中,包含人脸的图像更是引起了人们的加倍关注。如何有效的管理这些海量的人脸图像,
在多媒体技术日益广泛的今天,图像的通信和存储占有重要的位置,数字图像包含信息量巨大的特殊性使得压缩技术成为其关键,因而探索高效图像压缩编码算法无疑将成为当前通信和信号
近年来,随着通信网骨干网和局域网的巨大变化,“最后一公里”的接入网部分成了高速局域网和主干网之间的瓶颈。具有传输频带宽、容量大、抗干扰能力强等优点的无源光网络PON,