论文部分内容阅读
手语是用手形动作辅之以表情姿势由符号构成的比较稳定的表达系统,是一种靠动作/视觉交际的语言。手语识别可以辅助聋人,通过计算机提供一种有效的、准确的机制将手语翻译成文本或语音,使得聋人和听力正常人之间的交流变得更方便、快捷。因此手语识别研究具有较高的研究价值。综合现在的研究现状,手语数据差异性矛盾以及训练样本缺乏已经成为制约非特定人手语识别研究发展的瓶颈问题。本文从数据出发,解决目前非特定手语识别中的“数据”问题,主要研究工作如下:1.提出了生成数据驱动的识别框架,分别给出了基于遗传思想和基于mean-shift的手语数据生成策略。基于遗传思想的生成策略利用手语数据的多数据流组成特性,首先使用动态时间规整算法进行样本序列对齐,然后采用交叉等遗传操作方式生成新的数据样本。基于mean-shift的数据生成策略则利用手语数据的空间分布结构特性,对手语数据进行无参估计进而得到概率密度分布的梯度方向,从而实现手语数据的内向生成和外向生成。实验表明,在未注册测试集的情况下,使用基于遗传思想和基于mean-shift的数据生成策略,系统的识别率均明显提高,其中采用遗传思想的数据生成策略系统识别率提高到67.3%;基于mean-shift内向生成在最优的参数设置情况下,识别率达到了71.5%,较原始训练集驱动结果提高了5.1%。2.从人体运动,语言学的角度出发,分析了手语数据的结构性和差异性特点,在此基础上定义体现手语数据共性和个性的方法。我们的方法通过提取、保留手语数据中的关键动作以保证手语数据的结构特性,即共性;定义并描述与手语数据个性信息密切相关的手语数据基本特征,包括运动轨迹、时长、手形等,为手语数据建立了有效的表现模型。3.在原有的中国手语合成系统的基础上,使用手语数据表现模型生成大量的有效、泛化数据驱动虚拟人进行手语显示,实现了泛个性化手语合成。将手语数据表现模型应用于手语合成不仅有效地证明了本文提出的手语数据表现模型的合理性,而且为手语泛个性化合成研究提供了有效的新途径。