单通道语音分离关键技术研究

来源 :电子科技大学 | 被引量 : 5次 | 上传用户：ibm__1235

【摘要】

：

随着智能手机的普及,人机语音交互技术又一次迎来了发展的机会,如何让人机语音交互变得方便高效成为近年来的研究热点。语音分离作为人机语音交互技术中的核心问题,是自动语

【作者】

：

何求知

【机构】

：

电子科技大学

【出处】

：

电子科技大学

【发表日期】

：

2015年01期

【关键词】

：

计算听觉场景语音分离音质客观评价算法基音跟踪

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着智能手机的普及,人机语音交互技术又一次迎来了发展的机会,如何让人机语音交互变得方便高效成为近年来的研究热点。语音分离作为人机语音交互技术中的核心问题,是自动语音识别、语言自动翻译、说话者识别等技术的有力支撑。由于很多人机语音交互的实际应用场景中只有一个语音输入设备,单通道语音分离技术受到许多研究人员的关注。以听觉场景分析理论为基础,研究人员提出了基于计算听觉场景分析的单通道语音分离系统。这种语音分离系统的处理过程与人类听觉系统感知语音信号的过程类似,经过不断的改进,取得了较好的分离效果。本文对计算听觉场景分析的相关理论和算法进行了研究,详细的介绍了目前比较先进的Hu-Wang系统。并在Hu-Wang提出的单通道语音分离系统的基础上,提出了一些改进方法,本文主要的创新点如下:1.本文通过使用数学形态学图像处理技术,对CASA系统进行初步浊音分段得到的二值掩码图进行了改进。传统的CASA系统使用固定的阈值来进行浊音的初步分段,导致得到的二值掩码图中包含了残余的噪声和破损的语音。CASA系统后续的基音检测和组合过程都是以这个二值掩码图为基础的,不准确的二值掩码图会严重的影响CASA系统的语音分离结果。本文利用数学形态学图像处理技术,在二值掩码图的高频区域利用开运算消除噪声,在低频区域利用闭运算修补目标语音。实验表明,该方法能有效的提高初步浊音分段结果中目标语音信号的比例。2.针对Hu-wang串联语音分离系统在控制迭代过程中的不足,本文提出了一种基于语音客观评价算法改进迭代过程的方法。具体的做法是,对每一次迭代的结果,都经过后续的处理过程形成语音文件,将语音文件进行p.563语音质量检测,通过语音质量检测的结果来决定是否需要再次进行迭代。实验证明利用语音客观评价方法控制迭代流程要比传统方式更好。第一,客观语音质量评价算法可以根据每次迭代后目标语音的MOS-LQP评分值来控制迭代过程,让整个语音分离系统能够适用于不同的使用场景和不用的需求。第二,Hu-Wang系统中将数据是否收敛作为终止迭代系统的一个指标,而语音的客观评价标准比这个指标更具有权威性,更适合用来控制迭代流程。

其他文献

J2EE平台下PLM构件库的设计与实现

随着软件系统复杂度的增加,软件的规模日益庞大。人们逐步认识到,要真正实现软件的工业化生产方式,达到软件产业发展所需要的软件生产率和质量,采用软件复用技术是一条现实可

学位

软件复用构件构件库刻面分类J2EE构件检索构件匹配

基于组件式GIS工程勘察信息系统的设计和实现

随着现代城市的发展，地下空间已成为人民生活和经济活动的重要场所，也成为城市可供开发利用的重要资源。利用先进的地理信息系统技术和方法实现对城市已有工程勘察信息的管理，对

学位

地下空间工程勘察信息系统信息编码

基于模糊神经网络的锅炉汽包水位控制研究

锅炉是工业过程中不可缺少的动力设备,为确保安全,稳定生产,对锅炉的自动控制十分重要,其中汽包水位是一个非常重要的被控变量。由于锅炉的水位调节过程具有非线性、不稳定性

学位

模糊控制补偿模糊神经网络遗传算法综合学习算法

分布式海量数据并行传输的研究与实现

随着信息化技术的不断发展,行业内部和行业间的业务数据量呈几何级数递增,海量数据的传输与处理难题成为制约信息化产业扩大的瓶颈,本文提出一种分布式海量数据并行传输设计

学位

计算机集群并行中间件MobiLinkQoS路由

安全实时数据库中并发控制的研究

随着计算机网络技术、数据库技术的飞速发展,实时数据系统(RTDBS)的应用领域也越来越广。然而,越来越多的新的应用要求RTDBS在支持实时性的同时,也能提供对敏感信息的管理,如

学位

实时数据库数据库安全多版本并发控制串行化顺序

基于DWT和ICA的像素级多传感器图像融合算法研究

多传感器图像融合技术是图像理解、计算机视觉等领域的一个研究热点,广泛地应用于目标识别、智能机器人和医学图像处理等领域,对国防安全和经济建设产生了重要影响,因此对图

学位

像素级图像融合小波变换独立分量分析矩阵稀疏性融合评价准则

变电站故障诊断仿真系统的研究

本文通过比较国内外电力系统故障诊断方法和故障判断原则,提出了以专家系统为主,辅以模糊理论的方法,应用于变电站故障诊断仿真——对故障诊断结果可以确定的故障以专家系统为主;用模糊推理来处理故障诊断中不确定的信息。并详细介绍了知识库的建立过程。该变电站故障诊断仿真系统利用实际监控系统得到的开关和保护动作信息来诊断故障,根据保护和保护范围的对应关系,确定故障发生的位置。并提示运行人员应如何处理。本文提出所

学位

变电站故障诊断专家系统模糊理论知识库

大规模人脸图像编码及其在人脸验证中的应用研究

随着多媒体技术的快速发展和图像信息的爆发性增长,图像数据库规模变得非常庞大,而这些图像中,包含人脸的图像更是引起了人们的加倍关注。如何有效的管理这些海量的人脸图像,

学位

大规模人脸图像编码人脸对齐相对人脸属性稀疏编码

基于广义有限自动机的图像压缩编码研究

在多媒体技术日益广泛的今天，图像的通信和存储占有重要的位置，数字图像包含信息量巨大的特殊性使得压缩技术成为其关键，因而探索高效图像压缩编码算法无疑将成为当前通信和信号

学位

数字图像图像编码广义有限自动机图像压缩

基于QoS的EPON关键技术研究

近年来,随着通信网骨干网和局域网的巨大变化,“最后一公里”的接入网部分成了高速局域网和主干网之间的瓶颈。具有传输频带宽、容量大、抗干扰能力强等优点的无源光网络PON,

学位

接入网无源光网络以太网无源光网络多点访问控制协议时分多址访问动态带宽分配

单通道语音分离关键技术研究

其他学术论文