论文部分内容阅读
手势交互可以通过多种交互设备进行,如深度相机、彩色相机、数据手套、表面肌电电极等。基于表面肌电的手势交互凭借其易穿戴、对光照环境的鲁棒性以及对残疾用户运动意图较强的识别力等优点,成为人机交互领域的新型研究热点之一。
在基于表面肌电的手势交互中,其核心问题是如何准确地对肌电信号建模并识别出用户输入信号中所表达的含义。研究者们已基于经典机器学习和深度学习的框架对表面肌电手势识别进行深入研究,但依然存在以下问题:首先,表面肌电信号本身是一种时序生物信号,已有工作未在深度学习框架下对信号帧之间的时序关系进行深入研究;其次,表面肌电信号帧之间具有时序关系、不同信号通道间包含空间关系、不同肌群间在控制手部运动时存在关联关系,已有工作中没有进行深入研究;最后,多模态数据较单模态数据能够进行更加精准的建模,但是额外穿戴的传感器会降低用户体验。相关研究表明表面肌电信号与其他模态数据之间存在隐式的时序关系,如何挖掘多模态数据中隐含的时序关联关系用于手势识别并保证用户体验是待解决的问题。本文重点围绕上述问题进行探索和研究,主要研究工作包括:
1.基于表面肌电信号帧与帧之间的时序关系,提出一种基于循环神经网络的深度学习框架,并分别由长短时记忆网络和门控循环单元网络对信号帧之间在时序上的相互影响进行建模。与传统时序关系模型隐马尔科夫模型进行对比,该深度循环神经网络框架具有更强的时序关系建模能力。
2.综合考虑肌电信号的时序关系与空间信息,提出基于注意力模式的混合卷积循环神经网络对时序肌电信号进行建模。首先由卷积神经网络进行前期的特征学习,并由循环神经网络对学习到的特征向量进行时序建模;其次已有研究工作表明不同手势其控制肌群不同,故将注意力模式加入模型中来模拟这一特性。该模型能够同时对表面肌电信号的时序、空间及肌群控制信息进行建模,从而有效提升手势识别准确率。
3.基于肌电信号与手指运动之间在时序上的关联性,提出一种新的跨模态手势识别框架。首先,将生成式对抗学习引入肌电信号与手部姿态数据之间的关联关系建模中,能够根据表面肌电信号生成虚拟手部姿态数据;其次,将生成的虚拟手部姿态数据和肌电信号融合在一起进行手势识别。该方法框架在训练时需要两个模态的真实数据,但是在运行时只需表面肌电信号,故在提高手势识别率的基础上保证了高质量的用户体验。
将上述三部分研究工作的代码实现在Github网站上开源发布,并在7个稀疏多通道基准测试数据集和4个高密度基准测试数据集上进行评估,分别通过将表面肌电信号帧与帧之间、控制肌群之间和多模态之间的时序关系融入到手势识别中,能够有效提升方法对手势的建模能力,在11个基准测试数据集上均已达到目前最高的识别准确率,尤其在公开基准测试数据集NinaPro的第一个子集上,对52类手势的识别准确率达到90%。
在基于表面肌电的手势交互中,其核心问题是如何准确地对肌电信号建模并识别出用户输入信号中所表达的含义。研究者们已基于经典机器学习和深度学习的框架对表面肌电手势识别进行深入研究,但依然存在以下问题:首先,表面肌电信号本身是一种时序生物信号,已有工作未在深度学习框架下对信号帧之间的时序关系进行深入研究;其次,表面肌电信号帧之间具有时序关系、不同信号通道间包含空间关系、不同肌群间在控制手部运动时存在关联关系,已有工作中没有进行深入研究;最后,多模态数据较单模态数据能够进行更加精准的建模,但是额外穿戴的传感器会降低用户体验。相关研究表明表面肌电信号与其他模态数据之间存在隐式的时序关系,如何挖掘多模态数据中隐含的时序关联关系用于手势识别并保证用户体验是待解决的问题。本文重点围绕上述问题进行探索和研究,主要研究工作包括:
1.基于表面肌电信号帧与帧之间的时序关系,提出一种基于循环神经网络的深度学习框架,并分别由长短时记忆网络和门控循环单元网络对信号帧之间在时序上的相互影响进行建模。与传统时序关系模型隐马尔科夫模型进行对比,该深度循环神经网络框架具有更强的时序关系建模能力。
2.综合考虑肌电信号的时序关系与空间信息,提出基于注意力模式的混合卷积循环神经网络对时序肌电信号进行建模。首先由卷积神经网络进行前期的特征学习,并由循环神经网络对学习到的特征向量进行时序建模;其次已有研究工作表明不同手势其控制肌群不同,故将注意力模式加入模型中来模拟这一特性。该模型能够同时对表面肌电信号的时序、空间及肌群控制信息进行建模,从而有效提升手势识别准确率。
3.基于肌电信号与手指运动之间在时序上的关联性,提出一种新的跨模态手势识别框架。首先,将生成式对抗学习引入肌电信号与手部姿态数据之间的关联关系建模中,能够根据表面肌电信号生成虚拟手部姿态数据;其次,将生成的虚拟手部姿态数据和肌电信号融合在一起进行手势识别。该方法框架在训练时需要两个模态的真实数据,但是在运行时只需表面肌电信号,故在提高手势识别率的基础上保证了高质量的用户体验。
将上述三部分研究工作的代码实现在Github网站上开源发布,并在7个稀疏多通道基准测试数据集和4个高密度基准测试数据集上进行评估,分别通过将表面肌电信号帧与帧之间、控制肌群之间和多模态之间的时序关系融入到手势识别中,能够有效提升方法对手势的建模能力,在11个基准测试数据集上均已达到目前最高的识别准确率,尤其在公开基准测试数据集NinaPro的第一个子集上,对52类手势的识别准确率达到90%。