论文部分内容阅读
基于单视觉通道的唇读技术研究,是独立的研究唇读这种常用于辅助语音、手语等识别的技术,研究其作为单独的语言感知通道的可行性,为今后将唇读研究转化为应用做好前期工作。本文在基于孤立词的单视觉通道的唇读识别系统中,对包括预处理及唇区检测与定位,特征提取与分析以及训练与识别等主要问题进行了研究与实践。主要围绕其中的视觉特征进行分析,具体包括以下主要内容: 首先,在嘴唇检测方面,改进了自适应色度过滤模型,将区域均值统计信息作为阈值,有效地避免了噪声点的干扰,提高了算法的鲁棒性,完成了对嘴唇区域的精确定位。 对于唇区视觉特征,实验中发现维数较少的形状特征对较大词汇量的多类分类问题不够充分,识别率较低。而对于低级语义特征的提取,结合数学变换与主成分分析的特点,提出了基于局部DCT的LDCT-KL的两级特征提取算法,使用42维二级视觉特征,对特定人的唇动内容识别正确率达到77.8%;同时提出基于唇区的固定位置特殊点进行多尺度多方向的Gabor特征提取,进行KL压缩后取得了77.9%的识别率。基于分块的唇区DCT特征及对唇区固定位置的Gabor特征在大词汇量的唇读系统中是有效的。这也表明了独立唇读系统对解读唇动内容的能力。 目前对视觉特征与类别的对应关系不很明确,在各维对分类贡献不明确情况下,针对唇读中使用的高维低级语义特征,将目前受到极大关注的AdaBoost算法结合有效描述唇读的HMM应用于特征的选择,提出基于AdaBoost的特征分析算法,用以提取对识别有利的特征。该算法根据每维特征的分类能力对高维特征进行逐一挑选,对高维特征的分析,不但能明确最适合描述唇动的信息来源,又能达到特征选择的目的。对DCT低级语义特征的分析结果中对分类贡献大的DCT系数分布与DCT-KL二级特征中局部DCT系数提取方法相符,都映射了特征对于唇读的分类能力,同时也应证了Adaboost分析算法的合理正确性。