基于3D卷积的唇语识别的研究与设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:yxx1314521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的日渐成熟,可以应用到的场景也就越来越广阔。因为唇语识别需要从讲话者运动中的唇部提取所需要的信息来获取讲话者所想要表达的内容。但是由于语言种类的多样性以及唇部运动变化的微妙性,使得唇语识别的发展一直以来都不是像有的技术那样可以飞速发展。不像其他的仅仅只是由字母组成的语言,汉字更加的复杂,汉语拼音有超过1000多个的发音,而汉字的个数也超过了9000多个,这些就使得中文唇语识别更加地困难。在本文唇语识别的研究过程中,将网络模型分解为两个部分,图像模型和语言模型,这种分解的做法有助于本文实验的进行。在图像方面本文首先采用3D卷积神经网络来提取包含有时空信息的图片特征。第二个部分本文采用基于语言模型的Encoder-Decoder神经网络模型来处理。在第一个部分当中,本文使用经过改造的3D卷积网络来提取输入图片序列的时空信息,接着本文将3D ConvNet的输出输入到一层结构的GRU当中,在拼音序列识别网络的最后本文使用CTC来作为本文网络的损失函数来对网络进行训练,上面的这一个网络的构建过程就构成了本文的汉语拼音序列识别网络PTP(Pictures to Pin Ying)网络模型。之后,本文使用Encoder-Decoder编码模块,使用这样的语言模型来处理本文上个网络所输出的数据,输入的汉语拼音序列先经过Encoder编码模块的处置,然后再是经过Decoder解码模块进行解码,最终才会输出输入图片所对应的汉字序列,上面所述的网络构建步骤就是本文网络的汉字序列识别模块PTC(Pin Yin to Chinese Characters)网络模块。在研究当中本文使用了数据较为丰富的自制中文唇语数据集,数据集的大小为20.95GB,并且对该数据集进行了处理,对其中的每一个样本都增加了其梯度图和光流图。实验结果表明本文使用3D卷积实验所得句子准确率为47.3%,而原有的基于2D卷积实验得到44.9%句子准确率,系统模型整体准确率有了较为显著的提高。根据我们的实验结果,我们的方式不仅能够加快网络的训练,也能够在一定程度上避免过拟合,并且为后续的相关研究提供了一个最基本的衡量标准。
其他文献
道德哲学在抹去哲学的“神秘性”之后所澄明的道德世界观和思维方式激发了道德哲学的“生长点”,道德与利益的奠基地位得以确证,而利益均衡获得了道德哲学的社会价值精神之辅撑
研究背景世界范围内,肺癌是致死率最高的癌症之一。肺癌可分为两种:小细胞肺癌(small cell lung cancer,SCLC)和非小细胞肺癌(non-small cell lung cancer,NSCLC)。其中,NSCL
耳廓外伤可由车祸、刀割、牙咬等各种原因造成。临床上如果不及时处理或处理不得当,很可能会导致患耳感染,造成不同程度的耳廓缺损及畸形。我院于2008年3月~2010年8月共收治耳
汉英翻译与英语写作其实有着很大的联系,两者都是用英语进行表达,都需要考虑到英语中的选词、造句、组段等方面的问题。英语写作中的一些原则也是译者进行汉英翻译的基础,可以帮助减少中式思维下写出的中式英文。笔者比较“双一流”英译项目的初译与审校之后,总结了外籍审校对初译进行改动的一些规律,发现这些规律遵循了英语写作中的一些指导原则,主要是在清晰、衔接与连贯和表达简明这三个方面。这三个方面是汉英翻译与英语写
运用疏肝药物来疏调肝脏和肝经气滞,以维护肝主疏泄的正常生理功能的治疗方法称为疏肝法。现就本人在学习中的体会来谈谈疏肝法及其常用方药的临床运用。