论文部分内容阅读
手语是聋哑人通过手和手臂,同时辅助头部动作、脸部表情和肢体姿态进行交流的语言。手语识别利用模式识别技术,通过分析手和手臂的动作特征,并将特征序列作为分类器的输入进行分类识别任务,最终将手语翻译为文字或者声音输出,实现听力障碍人群和正常人的正常交流。本文主要研究中国手语识别。本文利用Kinect摄像头进行手语识别,立足于交互方式上的改变,结合Kinect提供的深度数据和人体骨骼点数据,探讨了手语特征提取和融合;针对独立词手语和连续手语采用不同的分类器识别,极限学习机(Extreme Learning Machine, ELM)算法用于独立词识别效果较好,条件随机场(Conditional Random Fields, CRF)及其分支理论潜在动态条件随机场(Latent Dynamic Conditional Random Fields, LDCRF)常用于自然语言序列处理,本文尝试将其用于解决连续手语分割和识别的问题,主要工作如下:首先,分析了手语识别问题的研究背景和意义,综述了目前手语识别研究的国内外现状以及存在的主要问题,介绍了本文的主要内容和章节框架。第二,研究了基于Kinect的手语数据获取和预处理。手语数据获取的方式主要有摄像头,数据手套或者其他传感器。本文先后利用微软的Kinect V1和V2摄像头及其SDK,摆脱了数据手套和其他传感器的束缚,实现更加自然的人机交互。基于手语表达的运动特点,我们选取了手、大拇指、手腕和手肘人体骨骼点的空间运动信息作为手语的原始数据。第三,研究手语特征提取和分类识别。特征选取对手语识别的精度至关重要,也是模式识别中的重要组成部分。基于Kinect提供的深度图像和人体骨骼点数据,分别提取了右手单手和双手的手部3D运动轨迹和手形两个方面的特征表示,并将单一特征和融合特征作为后续分类器的输入。分类识别方面,比较了SVM和ELM两种算法,最终选择更高效的ELM方法作为分类器。为了验证本文特征选择和分类器的有效性,建立并发布了包含20类手语词的数据集。实验结果表明融合手形和运动轨迹特征表示明显改善识别率,特别是融合HOG手形特征和球坐标的特征对数据集中的8类中国手语词达到96.06%识别率。第四,研究连续中国手语识别算法。简单介绍目前国际上常用的连续手语识别算法及其优缺点。详细介绍CRF及其分支理论LDCRF的基本原理,分别从特征函数选择、参数估计、模型推断三个方面探讨模型的建立和参数优化算法。实验部分选用4个日常中国手语句子,初步实现连续手语的分割。