论文部分内容阅读
视觉问答任务是根据图像以及相应的自然语言问题得到正确的自然语言答案,涉及到计算机视觉以及自然语言处理,是必须处理多模态输入且通过一定的推理才能解决的任务。现有模型主要基于冗余的视觉特征进行推理,引入过多图像噪声;基于低层次的图像语义特征进行推理任务,很难判断模型是否获取到了有效的图像特征表示。视觉问答系统目前主要在公开视觉问答数据集上进行性能评估,本文将重点放在数学图表类的视觉问答研究上,进一步提升现有模型的准确率。基于上述问题,考虑到结构化高层次的图像语义表征更加适合用于推理场景,本文设计了一种基于对象的视觉问答推理模型,提供一种可解释的高层次结构化的图像语义表示结合自然语言理解技术去完成推理任务。整个框架分为图像解析器、问题编码器以及通用推理模块三个部分,图像解析器使用目标检测模型来完成图像中对象的检测工作,对检测结果进行解析获取对象的相关属性信息;问题编码器是利用循环神经网络相关技术将自然语言问句映射到向量空间或者另一种表征形式;通用推理模块联合图像、问题表征完成推理工作。图像解析器基于目标检测模型,因此根据数学图表类数据特征针对FasterRCNN、RefineDet模型提出模型优化策略,在柱状图、饼图上取得91.57%mAP,在线图上取得78.86%mAP。为了验证基于对象的视觉问答推理模型,在微软开源数据集FigureQA上进行性能评估,取得了比以往已知方法更好的实验效果,并且训练时间压缩基线模型的15%。