【摘 要】
:
作为信息存储以及信息查询的主要载体,网络中存储图片数据总量每年呈指数规模增长,如何有效地使用搜索引擎查询关键字,搜索相关图片成为各大图片检索应用的重要问题。事实上,网络中大量的图片信息并没有其对应的描述标签,因此利用高效的算法对大量无标签图片标注准确的图像描述并将其展示给用户,在图像检索系统中是一个极其重要的的问题。近年来人工智能技术发展迅速,深度学习技术结合大规模GPU在各个领域拥有广泛的应用场
论文部分内容阅读
作为信息存储以及信息查询的主要载体,网络中存储图片数据总量每年呈指数规模增长,如何有效地使用搜索引擎查询关键字,搜索相关图片成为各大图片检索应用的重要问题。事实上,网络中大量的图片信息并没有其对应的描述标签,因此利用高效的算法对大量无标签图片标注准确的图像描述并将其展示给用户,在图像检索系统中是一个极其重要的的问题。近年来人工智能技术发展迅速,深度学习技术结合大规模GPU在各个领域拥有广泛的应用场景,如机器翻译、人脸识别和语音识别等。本文使用深度学习技术对图片信息标注问题的解决进行了研究。深度学习算法模型可以理解图片的内容并提取图像的语义信息,从而描述图片内容与语义描述之间的关系,进而生成可理解的文本内容。本文基于神经网络模型结合注意力机制提出了生成描述的模型,并结合该模型实现了中文图像检索系统。具体工作如下:1.提出了生成图像描述的模型。模型包括图像编码,特征提取和图像解码三部分。其中,图像编码采用了 ResNext网络作为图片数据的编码器。特征提取采用通道和空域注意力机制学习图像的通道与空间上的权重并基于这个权重对编码器提取的特征进行加权。图像解码采用了 ONLSTM模型来实现语句的有序性和层次感。此外,模型引入了过度校正方法,用于解决训练和测试集数据分布不一致的场景时,出现的过度纠正或者错误积累的问题。2.在模型实现的基础上,本系统使用Java、Python、HTML等编程语言实现一个web端的中文图像检索系统和基于后端共用的微信公众号服务。使用docker打包部署系统,并使用nginx,多数据库和服务器保证系统的性能。
其他文献
70年风雨兼程,70载砥砺奋斗。中国于“漏舟之中”站起来,在党和各族人民的合力下走向富强。2020年是全面建成小康社会和“十三五”规划的收官之年,绝对贫困问题将会在中华大地上得到彻彻底底的解决,但不可否认相对贫困还会长期存在。如何通过贫困治理研究,使职业教育扶贫政策更好地为“精准扶贫”、“脱贫攻坚”等时代任务的完成助力、为第二个百年目标的实现奠基值得探索。本文主要采用定性分析法、信息研究法和案例研
近年来,云计算,大数据和人工智能等新业务呈指数性增长,传统的波分复用光网络(Wavelength Division Multiplexing,WDM)由于在其在业务疏导方面有着频谱分配不灵活,频谱利用率不高的情况,已经不能满足未来高速率,容量大和可扩展的光传送网。针对WDM网络中业务疏导方面面临的问题,人们提出了基于正交频分复用的弹性光网络(Elastic Optical Network,EON)
压电陶瓷是一种机械能和电能之间转换的功能材料,由于其特殊的功能性,使得压电陶瓷被应用于日常生活和工业生产的各个方面,如声音转换器、声纳、换能器等,但是由于当前广泛应用的压电材料主要是铅基材料,而铅在使用过程中容易挥发,从而对环境造成污染,所以压电陶瓷的无铅化成为相关科研工作者的研究热点。而本文就是在压电陶瓷无铅化的研究基础上,探究了普通掺杂和织构化工艺对BT(Ba Ti O3)基无铅压电陶瓷的影响
胶囊网络在计算机视觉领域中的巨大潜力引起了广泛关注。胶囊网络通过向量的长度对实体存在的可能性进行编码,并将实例化参数映射到向量方向,它不仅可以用特征响应的强度来表示图像,而且可以表示图像特征的方向、位置等信息。胶囊网络的两层向量之间的更新使用动态路由算法,可以避免丢失图像的准确位置信息。本文的具体研究内容如下:(1)研究了基于胶囊网络的图像分类问题,使用胶囊网络分别对MNIST数据集和CIFAR1
现今人类使用机器人取代工况条件恶劣、操作过程危险、高精度要求或是大量重复的机械性的工作,同时机器人也可从事一些因各种条件限制,人类无法完成的工作。机器人技术被大量应用到生产活动中的同时,由于计算机算力的极大提升,机器视觉技术也被越来越多地应用到机器人的开发和研究中。其中机器人的自主化是一个非常重要的研究方向,尤其是在未知的环境中机器人自我感知所处的环境并构建相应的地图,使机器人能够在未知环境下自主
近年来,互联网视频数量呈爆炸式增长,其中短视频具有内容短、传播快、制作成本低、参与性强的特点,这些特点使相关业务领域迅速崛起。随着5G通讯技术的普及以及互联网用户碎片化使用趋势的延伸,未来短视频市场还将继续扩大。在此背景下,如何快速处理海量来源不同、类别不同的短视频,对其标注、分类以便进行有效地管理,是短视频业务中的关键点。传统的视频分类方式是人工标注,包括用户上传视频时主动添加标签以及业务人员观
银行业是金融业的重要组成部分,在经济结构中具有不可替代的作用。银行业集聚是金融集聚的一种类型,指的是银行机构与银行业产值在空间上高度集中的一种现象。银行业作为资本流通的中介,在引导资本服务于经济增长的过程中具有不可或缺的价值。现有研究表明,资本是经济增长的要素与动力之一,但对于特定区域而言,资本空间分布模式是集聚还是分散更有利于经济增长的研究相对有限。基于此,本文以银行网点空间集聚视角,分析了广东
相比普通图像而言,高动态范围图像不仅能够提供更大的动态范围,而且能更好地反映拍摄对象和场景的真实效果。而在高动态红外场景下使用高性能红外探测器拍摄的高动态范围红外图像,其输出信号通常是14或16位。但是,由于受到探测器材料及制作工艺的影响,高动态范围红外图像仍然存在对比度低、边缘模糊、信噪比低和空间分辨率低等缺陷。此外,冷反射现象也是存在于红外图像中的一种明显缺陷。以上缺陷不仅影响了红外图像的可视
震前对可能发生地震的区域事先进行地震灾害损失的预评估,是提升危险区地震应急准备水平、提高震后快速评估准确性的重要举措。在预评估过程中,需要对当地的地理地貌、房屋建筑、交通道路、次生灾害等多事项进行调研。其中如何能在短时间内,对大面积的房屋建筑进行较为精确的数据采集和结构类型判断,是开展预评估工作的重要环节。多年来中国地震局地质研究所针对预评估工作的需要,提出和发展了致死性评估方法,该方法其中的一个
当前黄金投资市场较为火爆,对于广大投资者来说,理性地预测分析至关重要。黄金价格波动的影响因素很多,较为复杂。本文先分析黄金价格的内在机制,再选取GARCH模型来对黄金价