面向视觉问答的图像处理技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:my_sunday_tongxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答任务是根据图像以及相应的自然语言问题得到正确的自然语言答案,涉及到计算机视觉以及自然语言处理,是必须处理多模态输入且通过一定的推理才能解决的任务。现有模型主要基于冗余的视觉特征进行推理,引入过多图像噪声;基于低层次的图像语义特征进行推理任务,很难判断模型是否获取到了有效的图像特征表示。视觉问答系统目前主要在公开视觉问答数据集上进行性能评估,本文将重点放在数学图表类的视觉问答研究上,进一步提升现有模型的准确率。基于上述问题,考虑到结构化高层次的图像语义表征更加适合用于推理场景,本文设计了一种基于对象的视觉问答推理模型,提供一种可解释的高层次结构化的图像语义表示结合自然语言理解技术去完成推理任务。整个框架分为图像解析器、问题编码器以及通用推理模块三个部分,图像解析器使用目标检测模型来完成图像中对象的检测工作,对检测结果进行解析获取对象的相关属性信息;问题编码器是利用循环神经网络相关技术将自然语言问句映射到向量空间或者另一种表征形式;通用推理模块联合图像、问题表征完成推理工作。图像解析器基于目标检测模型,因此根据数学图表类数据特征针对FasterRCNN、RefineDet模型提出模型优化策略,在柱状图、饼图上取得91.57%mAP,在线图上取得78.86%mAP。为了验证基于对象的视觉问答推理模型,在微软开源数据集FigureQA上进行性能评估,取得了比以往已知方法更好的实验效果,并且训练时间压缩基线模型的15%。
其他文献
随着城市交通建设的快速发展,轨道交通出行目前正在逐渐成为人们出行的重要方式。轨道交通工程项目由于自身的特点,其质量管理需要受到诸如设计、施工、环境、机械、工艺、规
在人们心理健康日益受到严峻挑战的时代背景下,心理健康教育也已成为大学生必修的一门课程,作为提高大学生心理健康水平的有效途径之一。在狠抓思想政治教育的同时,有机结合心理