论文部分内容阅读
随着深度学习技术的日渐成熟,可以应用到的场景也就越来越广阔。因为唇语识别需要从讲话者运动中的唇部提取所需要的信息来获取讲话者所想要表达的内容。但是由于语言种类的多样性以及唇部运动变化的微妙性,使得唇语识别的发展一直以来都不是像有的技术那样可以飞速发展。不像其他的仅仅只是由字母组成的语言,汉字更加的复杂,汉语拼音有超过1000多个的发音,而汉字的个数也超过了9000多个,这些就使得中文唇语识别更加地困难。在本文唇语识别的研究过程中,将网络模型分解为两个部分,图像模型和语言模型,这种分解的做法有助于本文实验的进行。在图像方面本文首先采用3D卷积神经网络来提取包含有时空信息的图片特征。第二个部分本文采用基于语言模型的Encoder-Decoder神经网络模型来处理。在第一个部分当中,本文使用经过改造的3D卷积网络来提取输入图片序列的时空信息,接着本文将3D ConvNet的输出输入到一层结构的GRU当中,在拼音序列识别网络的最后本文使用CTC来作为本文网络的损失函数来对网络进行训练,上面的这一个网络的构建过程就构成了本文的汉语拼音序列识别网络PTP(Pictures to Pin Ying)网络模型。之后,本文使用Encoder-Decoder编码模块,使用这样的语言模型来处理本文上个网络所输出的数据,输入的汉语拼音序列先经过Encoder编码模块的处置,然后再是经过Decoder解码模块进行解码,最终才会输出输入图片所对应的汉字序列,上面所述的网络构建步骤就是本文网络的汉字序列识别模块PTC(Pin Yin to Chinese Characters)网络模块。在研究当中本文使用了数据较为丰富的自制中文唇语数据集,数据集的大小为20.95GB,并且对该数据集进行了处理,对其中的每一个样本都增加了其梯度图和光流图。实验结果表明本文使用3D卷积实验所得句子准确率为47.3%,而原有的基于2D卷积实验得到44.9%句子准确率,系统模型整体准确率有了较为显著的提高。根据我们的实验结果,我们的方式不仅能够加快网络的训练,也能够在一定程度上避免过拟合,并且为后续的相关研究提供了一个最基本的衡量标准。