论文部分内容阅读
手势是人类与生俱来的交流手段之一,它自然而又直观,因此在新一代人-机交互系统中,手势交互成为很好的选择.对手势识别技术的研究也成为当今计算机视觉领域、模式识别领域、数字信号处理领域的一个重要研究方向.一般而言,手势通过手形(姿态)和轨迹共同作用来表达信息,而手形不仅能表达意义,还能充当动态手势(轨迹)的转换状态,因此识别手形的研究是手势识别领域内的一项重要内容.手形识别方法和动态手势识别方法不同,手形识别通常需要手区域定位、手区域分割、手形特征提取、手形理解等几个步骤.在手区域定位与手区域分割阶段,该文是通过提取连续手势图像序列中的肤色和运动特征来进行的,先是在手运动为主要运动分量的前提下,利用运动信息确定手区域,然后利用肤色信息,对定位的区域进行肤色滤波.经过运动和肤色特征的融合,可以将图像中的手区域从复杂背景中分割出来.经过滤波后的手区域图像归一化后被提交给识别模块理解.神经网络在处理诸如学习、理解等问题具有天然的优越性,因此,在论文的手形特征提取和手形理解阶段,采用的是神经网络方法.在某种意义上讲,多层感知器隐层具有特征提取功能,于是,论文的方案将手形特征提取和手形理解任务全部交付给一个三层前馈神经网络,权值调整使用BP算法,通过对其隐层输出所张成的空间中准则函数J<,F>的最大化(J<,F>=|S<,b>|/|S<,w>|,其中S<,b>是类间散度矩阵,S<,w>是总数内散度矩阵),论文所设计的前馈网络实现了对手形的理解.但由于神经网络很多方面的理论尚未成熟,许多工作要依靠经验而定,因此论文还详细讨论了应用于手形识别的前馈神经网络的训练策略,以及对神经网络方法所存在问题的处理手段;并列出了训练期间多次实验过程,以期对以后的应用提供参考.实现手形识别中的几何不变,尤其是旋转不变,是当今手形识别问题的重要课题之一,因为只有这样,才符合手势交互的习惯,该论文采用三阶神经网络来解决手形识别中的这一难题.通过将几何性不变构造入网络本身,三阶网络可以实现平移、比例、旋转不变的特征提取,其原因在于输入中所有具有相似性的3组合被分配了相同的权值,即提取的是输入图像中的结构信息,模拟结果表明此方案是有效的.总之,作者提出了自己的手形分割和手形理解(匹配)方案,计算机仿真结果证明了方案的可行性.