论文部分内容阅读
手语识别是通过人机交互技术(Human Computer Interaction,HCI)将采集到的手语翻译成文字或者语音,为听障人群提供语言交流上的便利,也为先天性失聪的聋哑患儿,增添了从小接受良好教育的机会。研究手语识别,构建一个完整的可应用系统,能够保障听障人群的学习工作和生活,促进社会和谐发展,具有重要的社会现实意义。除此之外,科技生活也逐渐成为现代人们的一种生活方式,研究基于计算机视觉的手语手势识别作为一种人机交互模式,也可以给现代人的智能生活带来舒适便捷的体验。手语识别作为一种时序性任务,时序性建模的优劣是识别效果好坏的关键因素。随着近年来基于深度学习的方法在计算机视觉领域取得的重大发展和突破,充分展示了卷积神经网络(Convolution Neural Network,CNN)的特征提取能力和递归神经网络(Recurrent Neural Network,RNN)的时序建模能力。因此,本文根据Kinect2.0获取的中国手语样本数据,利用深度神经网络来构建手语识别框架,本文的主要研究内容包括:1.根据中国手语词的可拆分特性及词内的上下文联系,我们细化了手语标签,以中国汉字作为我们识别的词典元素单元,将手语识别视为一种类似视频描述的任务,以特征序列作为输入,以表达序列作为输出,并构建了一个基于CNN和长短时记忆单元(Long Short Term Memory,LSTM)的手语识别框架。通过CNN提取手语图片的空间特征,利用LSTM构建编码解码网络,针对输入的特征,在编码端进行时序特征的提取,并传送到解码端进行词典元素的解码。2.我们使用多模信息融合来进一步提升识别的准确率。我们将Kinect2.0获取的三维骨骼点作为手语样本的轨迹特征,在前述框架的基础之上,提出了三种多模融合方法。分别为基于特征的融合,固定权重的模型融合以及自适应权值的模型融合。实验表明,三种融合方法在识别性能上均得到提升,其中,自适应模型融合方法测试结果达到97.7%。3.一个手语图片序列往往存在一些能够明确表达手语含义的视频帧也存在一些冗余帧,且不同视频帧的特征对不同的解码时刻作用不同。为了更好发挥手语视频中不同帧在不同解码时刻的作用,我们在编码解码网络中引入注意力机制,实现在每个解码时刻对视频帧不同的关注,从而更好地进行解码。实验表明,加入注意力机制的编码解码网络能够有效提升识别效果,识别率达到了 98.2%。