基于深度学习的图像标题生成算法及应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sqtian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能是长久以来人类不断探索的一个重要方向,如何让计算机学会人类的能力有着非常重要的意义。得益于计算机并行计算能力的提高和数据爆炸式的增长,产生了大量神经网络类的算法,这类神经网络算法通常网络层数更多,因此又叫做深度神经网络或者深度学习算法。深度学习算法对于复杂的人工智能任务有着惊人的有效性,在多个领域都有所应用。本文的主要研究内容是图像标题生成算法和应用,由于该任务是计算机视觉与自然语言处理两个领域交叉产生的,因此更加复杂,本文将使用深度学习算法对图像标题生成任务中的不同部分进行设计和建模,并且将图像标题生成算法的思想应用在验证码图像识别任务中。对于图像标题生成任务,本文提出了past-feeding和past-attention两种算法,分别对不同的网络结构进行改进。第一种past-feeding算法,通过加入已输出的词向量的信息作为辅助,联合预测当前时刻的输出词。第二种past-attention算法,将多个时刻的注意力向量信息通过LSTM建立联系,让注意力向量的生成更加合理,并且将整个模型分为语言信息和图像信息两个部分,使模型更加清晰。本文不仅对模型的大体框架进行详细的阐述,还对相关的公式进行了推导,最后将模型生成标题句子的过程进行可视化,从可视化的图片中可以清晰的看到,算法是如何提取图像特征的,预测标题句子中每一个单词时,注意力是如何变化的。最终实验表明,两种算法在多个指标下均有不同程度的提升。对于验证码图像标题生成任务,本文提出了OCR-IC算法,从图像标题生成算法的角度解决验证码识别问题,并且根据验证码图像的特点对网络结构进行调整。OCR-IC算法相比于传统算法有着诸多的优势,例如不需要图像分割等人工操作、支持验证码字符变长和模型准确率高等。最终实验表明,OCR-IC在验证码字符定长和变长两种场景下均有不错的准确率。
其他文献
文化的融合与碰撞在国际交流中扮演着一个重要的角色,所以在当今的世界上,各个民族之间切实需要相互的理解、包容和尊重。萨义德在其《东方学》中有意否定他人对自我的看法的
<正>我们知道:空间两条相交直线中,以其中一条为轴,使另一条围绕它旋转,所得到的旋转曲面,就是对顶圆锥面。用一个不过圆锥顶点的平面截此圆锥面后所得的图形是圆锥曲线(若平
目的:观察健脾生血法联合铁剂治疗伴有铁缺乏的癌性贫血疗效。方法:将60例伴有铁缺乏的癌性贫血患者随机分为3组,比较不同方法治疗伴有铁缺乏的癌性贫血疗效。结果:运用健脾
随着国内新建无缝钢管生产机组相继投产,无缝钢管的产能快速增长,市场竞争也越来越激烈。在市场竞争中,企业应获得和保持产品分销渠道的竞争优势。分析了当前无缝钢管产品分
本文论说三个问题:其一,历史小说应是以作者记忆前时代的真实历史人事为骨干题材的拟实小说,其外延排除各种表意之作和再生小说;能作此区分,才能避免对历史小说的跨元批评。
本文首先简要论述了独特的个人经历形成了张爱玲独特的、充满悲剧色彩的人生体验。然后结合文本阅读 ,详细地分析了在其悲观主义的人生观、人性观、审美观的影响下 ,张爱玲在
以罗汉果为主要原料研制罗汉果植物保健饮料。通过正交试验和感官评价的方法确定该饮料的最佳配方为:罗汉果提取物2.0g/L、枸杞提取物1.4g/L、决明子提取物1.2g/L、杭白菊提
对比分析文化式原型与东华原型.认为原型作为时代的产物,会随着人体体型、人体活动机能性、服装造型及流行等的不同而变化.我国目前流行的原型法(文中以东华原型为例)有自己
元十行本《十三經注疏》是目前所能見到最早的經注疏合刊本,也是明清時期閩、監、毛、阮刻本等版本的源頭,有很重要的版本意義。文章立足元十行本《附釋音禮記注疏》,對其版頁中
宁波市荣膺全国第一个“中国制造2025”试点示范城市,既是对宁波这些年来坚定不移打好转型升级组合拳、牢牢抓住实体经济这个发展根基、不断推动制造业做大做强的充分肯定,也