音频噪声环境下唇动信息在语音识别中的应用技术研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：kedy830622

【摘要】

：

传统语音识别研究只利用声学语音信息,而音视频双模态语音识别将说话人的唇动信息和声学语音信息一起作为特征参数,共同完成语音识别,为提高语音识别系统的鲁棒性和抗噪性能

【作者】

：

奉小慧

【出处】

：

华南理工大学

【发表日期】

：

2010年期

【关键词】

：

音视频语音识别嘴唇运动轮廓提取动态特征音视频融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统语音识别研究只利用声学语音信息,而音视频双模态语音识别将说话人的唇动信息和声学语音信息一起作为特征参数,共同完成语音识别,为提高语音识别系统的鲁棒性和抗噪性能提供了一条新途径。本文着重研究音视频语音识别中视频图像的前端处理、视频特征提取、音视频信息融合等实际应用问题。本文主要工作如下:1)建立了一个针对车载控制系统的中文句子级双模态语音数据库(BiModal Speech Database, BiMoSp),由26人(14男12女)的数据构成。经过对多个驾驶员进行问卷调查后归纳出68条最常用的车载设备控制指令作为语料,每个说话人为每个控制语句提供4个音视频语音样本。2)提出一种基于多色彩空间的嘴唇区域定位算法。该算法将RGB空间的彩色边缘检测结果、HSV空间的色调以及饱和度分量相结合,并根据嘴唇的位置特性,对嘴唇区域的基准线进行调整,然后通过投影确定嘴唇边界点的位置,最后在二值图像中完成嘴唇区域定位。为了提高视频图像处理的鲁棒性,在实验中还引用其他数据库的部分图像,实验定位的准确率为98.25%,相对利用PCA的定位算法,准确率提高了3.37%。3)以提高轮廓提取精度和速度为目标,提出了一种利用多方向梯度信息和基于先验知识的改进几何活动轮廓(GAC)模型。将多方向梯度信息和嘴形椭圆形状的先验知识(Prior Shape)结合起来引入到Level Set的能量函数中,避免了传统GAC模型在嘴形轮廓提取中的不足。相比传统的GAC,该模型使嘴唇轮廓提取实验的准确率提高了8.38%。4)提出了一种基于帧间距离和线性判别投影变换(LDA)的动态特征提取方法。该方法弥补了差分特征的缺陷。利用该方法得到的特征不仅嵌入了语音分类的先验知识,而且捕捉了视觉特征的纹理变化信息。实验结果表明,由DTCWT变化而来的静态特征经过帧间距离运算,识别错误率相对降低了3.25%。而该静态特征经过LDA变换之后识别错误率相对降低了6.50%。LDA变化后的特征和一阶、二阶差分特征结合之后,相对静态特征,又可使识别错误率分别降低了9.44%和15.43%。将帧间距离和LDA差分得到最终的动态特征,其识别错误率相对静态特征降低了20.12%。5)提出了一种双训练模型来改善音视频特征融合的识别效果。从训练数据和测试数据不匹配而带来的噪声影响考虑,在不影响识别速度的前提下,使用噪声模型和基准模型来共同完成音视频特征融合语音识别。对在噪声环境下的基于英语音视频数据库(AMP-AVSp)和中文音视频双模态语音数据库(BiMoSp)的实验结果表明,使用双训练模型在高噪声情况下识别性能得到了很大地提高。对于AMP-AVSp和BiMoSp,在SNR=-5dB时,比仅使用基准模型识别的错误率分别降低了45.27%和37.24%。6)提出一种基于整数线性规划(Integer Linear Programming,ILP)的最优流指数选取的决策融合方法。根据决策融合中的似然概率线性相加特性,利用提出的最大对数似然距离(Maximum Log-Likelihood Distance,MLLD)为准则,建立了流指数选取模型。在实验中用梯度值为0.05的穷举搜索法选取的流指数做参考。实验结果表明,两种方法得到的流权值和音视频语音识别结果都很接近。因为穷举搜索法往往都能得到模型的最优解,两个模型实验结果的近似也反映了ILP模型能够为音视频决策融合选取出最优数据流指数以达到最佳识别效果。

其他文献

浅谈小学生节俭习惯的培养途径

[摘要：崇尚节俭是我国的优良传统，也是小学生必须具备的良好品德。但是在目前的小学生之间存在以讲究节俭为羞耻、以追求奢靡为目标、以盲目炫富为荣耀、以追风攀比为时尚等不尚节俭的习惯和思想。因此需要加大对小学生的节俭教育，养成节俭意识，营造节俭环境，提高家长对节俭的教育和疏导能力，开展各类节俭的社会实践活动。培养小学生崇尚节俭的良好习惯。　　关键词：小学生；节俭；教育；实践]　　“坚持立德树人”、“完

期刊

小学生节俭教育实践

无线传感器网络中低功耗的数据传输策略的研究

因其广泛的应用背景,无线传感器网络的研究目前备受工业界和学术界的重视。然而,传感器节点本身的硬件条件仍然制约着传感器网络的快速发展,特别是传感器节点通常只能由低能

学位

无线传感器网络数据传输网络编码路由协议服务组

正交频分复用系统信号优化设计技术研究

正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)以其高频谱利用率和对抗频率选择性衰落的能力,成为未来无线通信系统的候选技术之一。但OFDM具有峰值功率和

学位

正交频分复用峰均比部分传输序列限幅信道估计频偏估计正交频分复用多址交织多址

三种治疗儿童上气道咳嗽综合征方法临床效果比较

目的比较酮替芬滴鼻液加布地奈德混悬液滴鼻联合孟鲁司特钠、单用糠酸莫米松鼻喷剂和单用孟鲁司特钠三种方法治疗儿童上气道咳嗽综合征的临床疗效。方法回顾分析227例诊断为

期刊

上气道咳嗽综合征酮替芬滴鼻液布地奈德混悬液孟鲁司特钠

促进小班幼儿语言能力发展的有效策略

摘要：在生活中，语言是必不可少的，它是交流与思维的工具，它的发展包括倾听和表达，语言对于小班幼儿来说更是相当重要。幼儿时期对今后的学习与生活有决定性的主导作用，也是口语发展的重要时期。本文通过研究小班幼儿的语言能力，并进行一定分析比较，对如何发展小班幼儿的语言能力给出一些策略。　　关键词：幼儿；语言；能力　　小班是语言发展的关键时期，因此重视促进幼儿的语言能力发展显得至关重要。但是幼儿本身较小的

期刊

幼儿语言能力

快捷货运列车缓冲器特性优化

使用空气制动与列车纵向动力学联合仿真系统，以MT2型缓冲器为基础，通过改变缓冲器局部特性曲线，研究了快捷货车在紧急制动以及调车冲击工况下，缓冲器不同特性对列车纵向冲动的影

期刊

快捷货车缓冲器纵向冲动车钩力high speed freight traindraft gearlongitudinal impulsein train

无线传感器网络中密钥管理和虚假数据过滤机制的研究

无线传感器网络是由大量计算、通信、存储等资源受限的传感器节点利用无线通信技术以自组织的方式形成的网络，其在军事、环境、医疗卫生、家庭等领域所拥有的广阔的应用前景使

学位

无线传感器网络网络安全密钥管理虚假数据过滤摘要

音频噪声环境下唇动信息在语音识别中的应用技术研究

其他学术论文