论文部分内容阅读
伴随计算机技术的迅猛发展,“以人为核心”的人机交互成为当前研究的热点。尤其是基于计算机视觉手势识别的研究,因其符合人的自然习惯且设备价格低廉,受到越来越多的关注。同时,手语是聋哑人以手势信息取代有声语言进行交流的重要方式。由于健全人一般不懂手语,而且手语翻译属于新兴职业,尚无法满足市场需求,因此手语识别的研究就显得十分有意义。面向未来智慧社区中手语/语音双向识别系统,实现聋哑人与健全人之间的可视“对讲”,不仅需要建立针对非特定人群的手语识别,还需要满足系统的实时性需求。为了有效解决上述问题,本文对手语识别中现有算法进行深入研究,并在此基础上对其中的两种算法进行改进,主要完成以下两个方面的工作。1)针对实时、大词汇集、连续手语视频的准确识别问题,提出一种融合压缩感知与加速稳健特征(Speeded Up Robust Features,SURF)的手语关键帧提取算法。首先在前期预处理阶段,采用基于HSV空间自适应颜色检测的方法来提取手势区域;再利用压缩感知将手语视频降维成低维多尺度帧图像特征,通过自适应阈值完成子镜头分割,处理大量手语帧数据;之后再运用SURF特征完成特征匹配,绘制SURF特征的帧间相似度曲线寻找极值点,最终提取关键帧。通过实验验证,算法具备处理大量复杂数据的能力,识别结果更加准确。2)针对跟踪学习检测(Tracking-Learning-Detection,TLD)算法在光照变化不均、遮挡严重、跟踪目标模糊等情况下会出现跟踪失败的问题,提出一种基于卷积神经网络优化TLD运动手势跟踪算法。首先选取手势特征作正样本,其背景作负样本,获取手势方向梯度直方图(Histogram of Oriented Gradient,HOG)特征并借助卷积神经网络加以训练,得到手势检测分类器,从而确定目标手势区域,实现手势的自动识别;再利用TLD算法对手势进行跟踪与学习,对正负样本进行估计检测并实时校正,同时运用SURF特征匹配更新跟踪器。实验表明,本文算法的跟踪精度高于传统TLD算法,且拥有更高的鲁棒性。