论文部分内容阅读
近年来,包括深度学习在内的机器学习理论有了巨大进展,人类见证了人工智能在众多领域的研究及应用成果。2015年,学术界提出的自由形式和开放式视觉问答(VisualQuestionAnswering,VQA)任务,逐步成为人工智能研究的热门方向。VQA系统将图像与自由形式和开放式的自然语言表述问题作为输入,以自然语言表述答案作为输出。VQA任务需要具有精准识别、物体检测、活动识别、知识库推理和常识推理等功能的问答系统来完成,而这些功能涉及的计算机视觉、自然语言处理和知识推理等领域在过去十年中取得了显着的进步。 论文通过对VQA数据集统计与分析,得到Question与Answer的统计特征,以此提出了两种数据预处理方法:低频剔除法和仿聚类法。低频剔除法删除低频样本,减少80%的输出分类类标,牺牲少量低概率的答案减少过拟合;仿聚类法结合聚类和分类算法的思想,将样本从原空间映射到新空间,直接合并低频样本。 论文局部修改了VGGNet提取的图像特征,与使用LSTM获取的问题特征连接,通过多层感知器(MultiLayerPerceptron,MLP),最后以K个可能输出的softmax分类器结束,构成了论文提出的双通道图像+问题模型LcVMS(LSTMconcatenateVGG+MultiLayerPerceptronandsoftmax)。 在经过低频剔除法与仿聚类法数据预处理后,LcVMS在数据集上准确率从36.25提高到44.45%,充分说明了论文提出的两种数据预处理方法的有效性和必要性。目前表现最好的模型比LcVMS模型准确率高,但是结构比LcVMS复杂很多。LcVMS模型充分考虑模型训练与响应的时间,尽可能提高模型的特征提取和分类速度,更适合作为后台快速响应智能对话。 论文采用LcVMS模型作为系统应答逻辑构建图片问答系统,对任意选取的图片及提出的问题作为图片问答系统的输入,获取Answer。实验结果表明,图片问答系统能较好地分辨物体、数量、颜色和位置等简单信息,在一定程度上具有媲美幼儿的智商,具备一定的实用价值。