论文部分内容阅读
在大数据时代,每天都有海量的图片上传到互联网,为了对如此大规模图像数据进行有效的管理和检索,图像的高效自动标注显得越来越重要。图像自动标注就是利用算法使得计算机能自动为图像赋上与图像语义内容相关的关键词汇,其本质是在图像的高层语义信息和底层特征之间建立一种映射关系。传统的图像标注算法需要手动提取特征,不适应大规模的数据集,而基于深度学习的图像标注算法大多忽视了图像的多标签性,且这些算法没有考虑图像标签间的关联性,以致提取的特征不够高效。基于此,本文对基于卷积神经网络的图像自动标注的理论和方法进行了深入的探究,针对现有方法存在的问题提出了改进算法和模型。本文的主要工作内容如下:(1)提出基于Sigmoid损失函数的卷积神经网络图像标注算法。针对图像标注任务的多标签性,将卷积神经网络常用的Softmax损失函数改为Sigmoid损失函数,更好地适应多标签学习,提出了一个适用于多标签图像的卷积神经网络模型;并使用256位编码特征来表示图像从而进行图像标注,获得了方便存储和图像快速比较的特征,最后通过实验验证所提出模型的有效性。(2)提出基于多标签加权三元组损失函数的卷积神经网络图像标注算法。针对图像标签间的关联性以及相似图像的差异性等特点,引入三元组损失函数,增加了模型的内聚性,同时为了解决汉明误差的问题,提出了多标签加权三元组损失函数,并结合Inception V4网络模型提出了基于多标签加权三元组损失函数的卷积神经网络图像标注模型。(3)提出基于Spatial SE特征的卷积神经网络图像标注算法。针对提取的多标签全局特征表示能力不足的问题,对卷积神经网络的网络结构进行改进。从网络通道层面考虑,引入挤压激励(Squeeze-and-Excitation,SE)模块。通过学习的方式来自动获取到每个特征通道的重要程度,然后根据这个重要性让网络利用全局信息有选择地增强有益特征通道并抑制无用特征通道,从而能实现特征通道自适应校准。并在此基础上,为了获得高效的卷积层特征,考虑了各空间像素点的重要性,为特征引入了空间像素权重信息,提取出强健并高效的Spatial SE特征。上述图像标注算法从模型的损失函数和网络结构两个方面出发,提出了三种卷积神经网络图像标注算法。通过和已有的图像标注算法在Natural Scenes、Corel-5K、ESP-Game、IAPRTC-12和NUS-WIDE等多个图像数据集上的对比,验证了本文提出的算法在图像标注任务上的高效性。