基于卷积神经网络的图像标注算法研究

来源 :苏州大学 | 被引量 : 3次 | 上传用户:w3244732447
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,每天都有海量的图片上传到互联网,为了对如此大规模图像数据进行有效的管理和检索,图像的高效自动标注显得越来越重要。图像自动标注就是利用算法使得计算机能自动为图像赋上与图像语义内容相关的关键词汇,其本质是在图像的高层语义信息和底层特征之间建立一种映射关系。传统的图像标注算法需要手动提取特征,不适应大规模的数据集,而基于深度学习的图像标注算法大多忽视了图像的多标签性,且这些算法没有考虑图像标签间的关联性,以致提取的特征不够高效。基于此,本文对基于卷积神经网络的图像自动标注的理论和方法进行了深入的探究,针对现有方法存在的问题提出了改进算法和模型。本文的主要工作内容如下:(1)提出基于Sigmoid损失函数的卷积神经网络图像标注算法。针对图像标注任务的多标签性,将卷积神经网络常用的Softmax损失函数改为Sigmoid损失函数,更好地适应多标签学习,提出了一个适用于多标签图像的卷积神经网络模型;并使用256位编码特征来表示图像从而进行图像标注,获得了方便存储和图像快速比较的特征,最后通过实验验证所提出模型的有效性。(2)提出基于多标签加权三元组损失函数的卷积神经网络图像标注算法。针对图像标签间的关联性以及相似图像的差异性等特点,引入三元组损失函数,增加了模型的内聚性,同时为了解决汉明误差的问题,提出了多标签加权三元组损失函数,并结合Inception V4网络模型提出了基于多标签加权三元组损失函数的卷积神经网络图像标注模型。(3)提出基于Spatial SE特征的卷积神经网络图像标注算法。针对提取的多标签全局特征表示能力不足的问题,对卷积神经网络的网络结构进行改进。从网络通道层面考虑,引入挤压激励(Squeeze-and-Excitation,SE)模块。通过学习的方式来自动获取到每个特征通道的重要程度,然后根据这个重要性让网络利用全局信息有选择地增强有益特征通道并抑制无用特征通道,从而能实现特征通道自适应校准。并在此基础上,为了获得高效的卷积层特征,考虑了各空间像素点的重要性,为特征引入了空间像素权重信息,提取出强健并高效的Spatial SE特征。上述图像标注算法从模型的损失函数和网络结构两个方面出发,提出了三种卷积神经网络图像标注算法。通过和已有的图像标注算法在Natural Scenes、Corel-5K、ESP-Game、IAPRTC-12和NUS-WIDE等多个图像数据集上的对比,验证了本文提出的算法在图像标注任务上的高效性。
其他文献
能源危机是当前世界各国面临的一大难题,而太阳能作为一种清洁能源,可通过新技术加以利用并转换为电能,有望缓解能源紧张。目前,限制太阳能电池效率的主要问题在于太阳光谱与
语音习得是二语习得中不可或缺的一部分,同时也是难点之一。在不同的语音环境中,交际者会调整自己原有的言语习惯或语体,以更接近说话对象的言语或语体,从而产生语音夹带的现
土地是农民生存和发展的重要物质资源,随着城市化进程的不断加快,农业用地被依法征收后,被征地农民常常因为就业困难而因征返贫,加上征地补偿制度与社会保障制度还没有形成统
随着消费需求的转变,个性化产品越来越受到消费者的偏爱。互联网、信息技术和生产制造能力的提升,为个性化产品的生产提供了技术基础。“互联网+先进制造业”和“供应链创新
行业配置是指在个股层次上保持相对消极的态度,而在股票行业的层次上进行积极投资。行业配置的重点是向预期未来表现优秀的行业靠近,并减少预期未来表现恶化的行业在投资组合中的权重。基金市场的结构表明,资产配置依然占主导地位,大部分研究也是围绕资产配置展开,而行业配置方面的研究较少,且多集中于行业集中度方面的研究。虽然基金行业广泛认为优化基金行业配置能有效提升业绩,但真正有效的策略少之又少。基于有关行业配置
目的:ALPPS是目前临床上新兴的用来解决肝部分切除时剩余肝体积不足的一种手术方式,因其独特的增生速度而被大量临床工作者视为未来解决肝切除术临床问题的有效方法之一,而内
篇章关系识别旨在研究篇章内部论述单元(简称为“论元”)的语义逻辑关系,是自然语言处理领域中的一项重要研究任务。宾州篇章树库语料库是篇章关系识别领域的权威数据集,它根
乳业是国计民生的重要产业,是强壮中华民族营养健康的产业。随着人民生活水平的普遍提高,越来越多的人民对乳品的关注逐渐从“量”转向“质”,乳品供应链安全也成为了当前人
氧化应激会破坏机体抗氧化防御机制,造成机体氧化损伤,这也是很多疾病的发病机理。线粒体是活性氧自由基(reactive oxygen species,ROS)产生的主要场所。阿魏酸、姜黄素和谷
微结构光纤(MOF)具有灵活的结构设计和独特的导光机制,其光学特性可以通过改变内部空气孔的形状、尺寸和分布进行有效地调节,从而满足不同的实际需要。MOF内部的空气孔不仅可以