基于强化学习的手语视频翻译

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:a9228144
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手语是听力障碍者用来交流的语言,它使用肢体动作模拟音节,构成相应词语来进行信息传递。但是,庞大的听障群体和听力正常群体间仍存在沟通障碍,而且不同地域的听障群体间由于手语规则的不同也难以有效沟通。因此,手语视频翻译技术通过将手语视频翻译成文本语句,将大大改善听障群体的交流现状。手语视频翻译旨在将手语视频翻译成文本语句,这要求手语视频翻译模型准确地提取手语动作信息,同时克服手语视频和文本语句之间的语义鸿沟。基于这两项要求,本文使用三维卷积残差神经网络(3D-ResNet)来提取视频中手语特征,并通过Transformer将手语特征序列翻译成文本语句。此外,Transformer(或者其它基于编解码结构的时序模型)在前向计算下一时刻词项的概率分布时,解码结构中词项的输入方式在监督训练过程与测试过程中存在偏差;而且在手语视频翻译任务中,监督学习使用的优化目标和测试时的评估准则间也并不一致。针对上述缺陷,本文在监督学习的基础上使用强化学习进一步优化模型参数。于是,递进地,本文提出了三种手语视频翻译方法,具体如下:1.提出了一个由3D-ResNet和Transformer构成的解决手语视频翻译任务的新网络框架,实现了手语视频的准确翻译。在该手语视频翻译模型中,3D-ResNet用来提取视频中的手语特征,Transformer用来将3D-ResNet生成的手语特征序列翻译成目标文本语句序列。2.提出了基于“自我评价”策略梯度算法的手语视频翻译方法。本文对基于3D-ResNet和Transformer的手语视频翻译模型进行强化学习公式化描述,并使用策略梯度算法优化策略网络。为提高算法稳定性,本文使用模型自身生成的语句为策略梯度算法提供基准值,先后提出了以“最大估计”和以“采样-最大估计”生成语句为基准语句的策略梯度算法。3.提出了基于“动作-评价”策略梯度算法的手语视频翻译方法。为了提高策略梯度算法中基准值的准确性,本文使用价值网络来拟合作为基准值的状态价值函数。于是,为了同时优化价值网络和策略网络,本文先后用分开、交替和联合的方式完成价值网络和策略网络的训练,其中联合训练模式下策略网络和价值网络构成“动作-评价”结构。本文在手语数据集RWTH-PHOENIX-Weather上对上述三种方法进行了验证,实验结果显示基于3D-ResNet和Transformer的手语视频翻译模型对手语视频翻译任务有较好的效果,而且证明了强化学习能进一步提高模型的有效性。
其他文献
在矿井技改前,煤矿主通风机大都采用FBCDZ系列煤矿地面用隔爆型抽出式对旋轴流式通风机,出现了"大马拉小车"现象,且存在安全隐患。变频调速可调节矿井的供风量,优化风机工况点,
重组工程(Red/ET, recombination mediated genetic engineering)是指由重组酶催化的DNA片段之间的同源重组而在大肠杆菌中进行基因克隆或DNA改造的一种基因工程技术。通过重
阐述了医院信息系统的应用主线和系统当前面临的挑战,探讨了运用数据整合、统一平台以及面向服务的技术架构等方法,完成多元化信息集成交换平台的解决方案,对数据进行集成与
目的:通过对脑血栓形成的病人的康复期护理,使病人能够从康复期中找回自信。方法:将本科室住院患者根据不同病情,开展不同程度的训练。结果:脑血栓形成病人病情较入院明显好