单视觉通道唇读中的特征分析

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zqqzqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于单视觉通道的唇读技术研究,是独立的研究唇读这种常用于辅助语音、手语等识别的技术,研究其作为单独的语言感知通道的可行性,为今后将唇读研究转化为应用做好前期工作。本文在基于孤立词的单视觉通道的唇读识别系统中,对包括预处理及唇区检测与定位,特征提取与分析以及训练与识别等主要问题进行了研究与实践。主要围绕其中的视觉特征进行分析,具体包括以下主要内容:  首先,在嘴唇检测方面,改进了自适应色度过滤模型,将区域均值统计信息作为阈值,有效地避免了噪声点的干扰,提高了算法的鲁棒性,完成了对嘴唇区域的精确定位。  对于唇区视觉特征,实验中发现维数较少的形状特征对较大词汇量的多类分类问题不够充分,识别率较低。而对于低级语义特征的提取,结合数学变换与主成分分析的特点,提出了基于局部DCT的LDCT-KL的两级特征提取算法,使用42维二级视觉特征,对特定人的唇动内容识别正确率达到77.8%;同时提出基于唇区的固定位置特殊点进行多尺度多方向的Gabor特征提取,进行KL压缩后取得了77.9%的识别率。基于分块的唇区DCT特征及对唇区固定位置的Gabor特征在大词汇量的唇读系统中是有效的。这也表明了独立唇读系统对解读唇动内容的能力。  目前对视觉特征与类别的对应关系不很明确,在各维对分类贡献不明确情况下,针对唇读中使用的高维低级语义特征,将目前受到极大关注的AdaBoost算法结合有效描述唇读的HMM应用于特征的选择,提出基于AdaBoost的特征分析算法,用以提取对识别有利的特征。该算法根据每维特征的分类能力对高维特征进行逐一挑选,对高维特征的分析,不但能明确最适合描述唇动的信息来源,又能达到特征选择的目的。对DCT低级语义特征的分析结果中对分类贡献大的DCT系数分布与DCT-KL二级特征中局部DCT系数提取方法相符,都映射了特征对于唇读的分类能力,同时也应证了Adaboost分析算法的合理正确性。
其他文献
数字半色调技术是将连续调图像转换成有限灰度图像以便在输出灰度范围较小的设备上呈现的一门技术。比如二值或多值打印机只能输出两个或者若干个灰度级的图像,要将屏幕上显示
近年来通信网的主干部分发生了巨大的变化,而在接入网部分却变化很少。“最后一公里”的接入网部分仍然是高速局域网和主干网之间的瓶颈。主干网光纤化带来的巨大的带宽资源使
本文围绕如何对入侵容忍系统进行分析进行研究,主要研究了入侵容忍的基本理论以及入侵容忍系统的模型,提出改进的模型;分析了现在的入侵容忍的评价方法以及存在的缺点,提出了
开放系统往往由一组动态的人、硬件和软件主体组成,并通过它们之间的协同工作来满足涉众的需求。然而,由于开放系统复杂性、其内部主体间的异构性、以及其运行环境的开放性和
随着互联网的飞速发展,地理信息系统GIS的应用也快步进入了互联网时代。由于地理信息系统获取数据的手段复杂多样,形成了多种格式的原始数据,同时这些空间信息资源也大多存在
P2P技术是近年来兴起的新技术,其在电子商务领域的应用越来越受到人们的关注。P2P环境下的电子商务使得参与交易的用户具有匿名性,而且他们在空间上是分散的,客户之间的交易不需
计算机学科实验课程作为计算机学科教学的重要环节,对培养学生的动手能力、分析问题和解决问题的能力,起着不可替代的作用。然而现阶段各高校传统的教学模式一直存在“重理论、
信息网络技术的飞速发展和全面应用将世界带入了一个全新的时代。人们在享受网络科技带来的方便和快捷的同时,也更加关注网络的安全。如今,它己经成为国家有关部门、企事业单位
随着嵌入式技术和无线网络技术的发展,物联网已经不再是我们遥不可及的概念,它将是继计算机、互联网与移动通信网之后又一次信息产业革命。所谓物联网就是指在传统互联网的基
随着我国航天事业的进步和深空探测活动的开展,深空探测器中大量的数据传输需求与有限的信道容量之间的冲突亟待解决。为了在有限的信道容量下能够传输更多的信息,各个航天大