复杂环境下音质客观评价的参考源构造方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wMystarw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为通信服务质量(Quality of Service,QoS)的重要组成部分,语音质量客观评价方法受到了广泛的关注。实际的语音通信中持续存在的复杂环境噪声很大程度地影响着人们对通信音质的主观评价,是决定语音质量的主要因素。因此,复杂环境下高效的语音质量客观评价方法成为了研究热点。目前,以国际电信联盟(International Telecommunication Union,ITU)提出的音质感知评估(Perceptual Evaluation Speech Quality,PESQ)为代表的有参考源客观评价方法采用干净语音和经过噪声污染的失真语音信号作为语音质量评价的输入参量,寻求两者的听觉失真误差与主观感知之间的关系,基本实现了与主观评价的较高相关度的契合。然而该类方法需要原始语音并且要求和失真语音之间做到严格同步,在实际监测过程中,严格同步的要求并不容易得到满足,同时大部分的应用场景无法获得原始干净语音。另一方面,以ITU P.563为代表的无参考源客观评价方法主要通过探求描述干净信号和失真信号之间主观感知差异的语音特征来估测语音质量,虽然评价过程不需要原始干净语音,但是这类方法需要对原始干净信号空间作出假设,因此与主观评价的相关度不如有参考源客观评价方法。本文基于这个事实,以提升复杂环境下音质主客观评价的相关度为目标,提出一种基于准干净语音构造和有参考源评价方法实现复杂环境下语音质量的无参考源客观评价模型,以准干净语音构造为核心研究内容,从复杂环境下的噪声跟踪与去除,干净语音信号稀疏重构和语噪源分离等角度探求了多种准干净语音构造方法,并提出了适用于无参考源情况的改进有参考源评价模型。本文主要工作及贡献如下:(1)提出了基于准干净语音构造和有参考源方法实现复杂环境下语音质量的无参考源客观评价模型。模型分为两步实现:第一步,准干净语音构造。目标是从带噪语音谱中尽可能地将原始干净的语音信号恢复出来,然后通过逆变换获得时域信号;第二步,有参考源感知测量。将准干净语音作为有参考源评价模型的参考源,通过计算参考语音与带噪语音之间的失真误差,获得带噪语音的客观评价分值。另一方面,基于PESQ算法应用的有效性和广泛性,并且考虑准干净语音与带噪语音是严格同步的,提出将去除时间对齐模块的改进PESQ作为算法有参考源感知测量模型。(2)围绕(1)中准干净语音构造目标,针对目前主流的最小值控制递归平均(Minima Control Recursive Averaging,MCRA)噪声估计算法在复杂环境下存在噪声跟踪时延的问题,提出一种基于改进MCRA的准干净语音构造算法。该算法采取话音活动检测(voiceactivitydetection,vad)对带噪语音噪声谱进行语音与非语音部分的区分计算,并且采用局部最小值连续跟踪的方法,使得噪声跟踪可以不受窗口长度的限制。另外考虑到mcra算法利用过去估计的噪声谱与当前带噪语音谱对当前的噪声谱进行估计,采用非语音的先验信息和频率相关阈值计算信号的语音存在概率,以提高噪声跟踪的准确性。在基于timit与noisex-92噪声数据库的准干净语音构造性能实验结果中,在不同噪声信噪比条件下,改进mcra与经典mcra和最小值统计(minimumstatistic,ms)方法相比,对数似然度llr(loglikelihoodratio,llr)平均降低了0.08~0.18,分段信噪比(segmentalsnr,segmentsnr)平均提升幅度提高了1.44db~2.46db。在noizeus和itu-tp.supplement-23复杂环境带噪语音库的客观评价实验结果中,基于改进mcra准干净语音构造的无参考源评价方法相关度r在非条件平均和条件平均下分别为0.739和0.857,相对于p.563和其他比较方法,提高了5.4%~9.8%;与pesq算法性能相比,实现了87.8%和95.1%相关度的接近。(3)针对(2)中改进mcra方法存在噪声谱估计误差和交叉项误差等影响性能的因素,基于语音信号空间的过完备表征,从干净语音信号稀疏重构的角度提出一种自适应逼近残差的稀疏表示准干净语音构造方法(asrdn)。基于相位不会对语音可懂度造成影响的原则,给出了一种交叉项误差补偿方法,并且通过瞬时后验信噪比相关的权重因子对持续估计的噪声谱进行调整以提升噪声谱估计的准确性。基于k奇异值分解(k-singularvaluedecomposition,k-svd)算法构建干净语音谱的过完备字典,在稀疏表示时,基于调整后的噪声谱和估计的交叉项自适应地更新逼近残差,并采用正交匹配追踪(orthogonalmatchingpursuit,omp)算法对干净语音谱进行稀疏重构。在准干净语音构造性能实验结果中,相对于改进mcra和其他同类方法,llr平均降低了0.03~0.16,segmentsnr平均提升幅度提高了1.26db~3.79db。在音质客观评价实验结果中,相关度r非条件平均和条件平均分别为0.768和0.874,相对于改进mcra,p.563和其他比较方法,提高了3.9%~14.8%;与pesq算法性能相比,实现了91.3%和96.8%相关度的接近。(4)针对(3)中asrdn算法重构信号所需的计算用时较大,并且仅采用了与语音相关的功率谱字典对准干净语音进行重构,对于与语音相似的结构形背景噪声出现提取的语音原子会表征噪声信息,导致重构语音包含部分背景噪声等问题,从语噪两种源统计分析和分离的角度,基于非负矩阵分解(non-negativematrixfactorization,nmf)理论实现了新的准干净语音构造方法。首先对标准NMF分离的局限性进行了分析,并基于变分贝叶斯NMF对实际信号建模的灵活性,将变分贝叶斯NMF模型引入到准干净语音构造中,提出了基于变分贝叶斯NMF的准干净语音构造方法。同时,考虑到现实环境中的噪声类型不可预知,离线训练的噪声基础矩阵并不一定对应于现实的噪声类型,在变分贝叶斯NMF的基础上提出了一种在线数据驱动的噪声基础矩阵自适应更新方法。该方法在训练阶段采用类型和数目足够多的噪声样本来构建噪声的变分贝叶斯NMF背景模型,在语噪分离时,基于现实噪声类型比较稳定,噪声基础矩阵不会剧烈变化的事实,在一定时间范围内估算出带噪语音信号内的噪声帧。基于这些在线噪声数据,通过变分贝叶斯NMF训练更新噪声基础矩阵,实现将噪声背景模型自适应更新到实际的噪声类型。在准干净语音构造性能实验结果中,相对于ASRDN和其他同类方法,LLR平均降低了0.11~0.19,SegmentSNR平均提升幅度提高了1.46dB~4.68dB,而计算用时大概仅为ASRDN的一半。在音质客观评价实验结果中,相关度R非条件平均和条件平均为0.802和0.892,相对于ASRDN,P.563和其他比较方法,提高了4.4%~19.1%;与PESQ算法性能相比,实现了95.3%和98.9%相关度的接近。
其他文献
本文主要探讨了英美文化和汉文化在按照自己的文化习惯进行思辨、推理、以及在跨文化交往中的遣词造句所带来的理解上的障碍,从而说明,要从根本上达到两种文化的理解,应重视
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
<正>一杭州是我国著名的风景名城,是七大古都之一,它以历史悠久、风景秀美、文化灿烂而著称于世。杭州自秦始皇三十七年(公元前210年)始见于记载,迄今已有两千多年的历史。从
新生角色转换及转换中所面临的困境 大学生的角色定位,是指在校其间能够明确自身的位置和处遇,在领悟社会、家庭等对自身的角色期待基础上,履行自身的权利、义务、责任,以达
期刊
目的观察噻托溴铵在慢性阻塞性肺疾病(COPD)稳定期中的疗效。方法将确诊的中、重度COPD患者31例随机分为治疗组和对照组。对照组给予硫酸沙丁胺醇气雾剂吸入治疗,每次3~4喷,3次/
目的探讨MOED(米托蒽醌、长春地辛、依托泊苷、地塞米松)方案治疗恶性淋巴瘤的疗效和安全性。方法采用MOED方案治疗38例难治性或复发性恶性淋巴瘤,其中难治性非霍奇金淋巴瘤(NHL
研究了杂色云芝对等电提取谷氨酸后浓缩废母液处理效果,考察了浓缩废母液的不同百分比浓度和初始pH对杂色云芝脱色率、COD去除率及菌体生物量的影响,同时还考察了杂色云芝处
本文介绍了以汇川驱动技术与控制技术为基础,以纺织行业工艺创新为核心,为喷气织机行业客户提供的个性化、专业化的高速剑杆织机电控系统。该系统的编码器信号分别进入PLC和
目前随着企业文化的发展,战略人力资源被人们赋予了很多种定义,但总的来说都是强调了人力资源管理的重要性,它是企业进行有效运作的基础,进行科学地管理同时也能为企业带来一
期刊
创新作为创造的重要动力和源泉,若缺乏良好创新思维,通常都难以创作出一个好的广告作品。因此,在广告设计教学中,其教师除了专业理论知识与技能的传授外,还要结合学生不同阶