双通道图片问答模型LcVMS

来源 :汕头大学 | 被引量 : 0次 | 上传用户:luxi0194
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,包括深度学习在内的机器学习理论有了巨大进展,人类见证了人工智能在众多领域的研究及应用成果。2015年,学术界提出的自由形式和开放式视觉问答(VisualQuestionAnswering,VQA)任务,逐步成为人工智能研究的热门方向。VQA系统将图像与自由形式和开放式的自然语言表述问题作为输入,以自然语言表述答案作为输出。VQA任务需要具有精准识别、物体检测、活动识别、知识库推理和常识推理等功能的问答系统来完成,而这些功能涉及的计算机视觉、自然语言处理和知识推理等领域在过去十年中取得了显着的进步。  论文通过对VQA数据集统计与分析,得到Question与Answer的统计特征,以此提出了两种数据预处理方法:低频剔除法和仿聚类法。低频剔除法删除低频样本,减少80%的输出分类类标,牺牲少量低概率的答案减少过拟合;仿聚类法结合聚类和分类算法的思想,将样本从原空间映射到新空间,直接合并低频样本。  论文局部修改了VGGNet提取的图像特征,与使用LSTM获取的问题特征连接,通过多层感知器(MultiLayerPerceptron,MLP),最后以K个可能输出的softmax分类器结束,构成了论文提出的双通道图像+问题模型LcVMS(LSTMconcatenateVGG+MultiLayerPerceptronandsoftmax)。  在经过低频剔除法与仿聚类法数据预处理后,LcVMS在数据集上准确率从36.25提高到44.45%,充分说明了论文提出的两种数据预处理方法的有效性和必要性。目前表现最好的模型比LcVMS模型准确率高,但是结构比LcVMS复杂很多。LcVMS模型充分考虑模型训练与响应的时间,尽可能提高模型的特征提取和分类速度,更适合作为后台快速响应智能对话。  论文采用LcVMS模型作为系统应答逻辑构建图片问答系统,对任意选取的图片及提出的问题作为图片问答系统的输入,获取Answer。实验结果表明,图片问答系统能较好地分辨物体、数量、颜色和位置等简单信息,在一定程度上具有媲美幼儿的智商,具备一定的实用价值。
其他文献
近年来,半监督学习因其卓越的性能逐渐受到模式识别和机器学习领域研究者的重视。半监督学习可利用的监督信息除了少量的标记样本外,还包括样本间的成对约束等其它信息。其中
覆盖与连通是无线传感器网络的两个最基本的问题。覆盖是指网络中的传感器节点能对整个目标区域进行监测以收集数据;连通是指网络中的有效节点能自组成网络以传送数据。采用
波普艺术在抽象表现主义的铺垫下,逐步转向符号、商标等生活化的主题,一跃成为20世纪60年代欧美国家新颖的艺术表现形式.波普艺术看起来没有抽象主义那么高深,同时也不像传统
随着网络技术和数字多媒体技术的发展,数字产品的知识产权纠纷问题也相继产生,数字水印的出现给知识产权保护开辟了新的道路。其中非对称数字水印作为数字水印技术的一个分支
迁移工作流是将移动计算技术应用于工作流管理的一项新技术,特别适合于需要频繁地传递大量数据,以及需要大量调用远程服务的分布式并发处理过程。迁移工作流管理系统框架由迁