【摘 要】
:
当代社会互联网上图片的数据量急剧增长,而用户的检索需求越来越高,传统基于文本的图片检索技术因其描述词汇受限,很难在满足大数据背景下的图片检索。如何快速,准确的从众多
论文部分内容阅读
当代社会互联网上图片的数据量急剧增长,而用户的检索需求越来越高,传统基于文本的图片检索技术因其描述词汇受限,很难在满足大数据背景下的图片检索。如何快速,准确的从众多图片中找到目标图片或者相似图片,成为了研究的热点。基于图像内容的检索技术在该背景下受到研究者们的关注,该技术使用图片自身的特征去匹配目标图片,检索结果具有非常高的准确性,百度和谷歌公司已经相继推出的以图搜图的服务,用户体验十分好。基于图片内容的检索技术包含了许多图像处理的技术,其中特征提取技术最为关键。特征提取是基于内容的图像检索技术中的关键步骤,因为后续其他的图像处理步骤是在此基础上进行的。在众多的特征提取算法中,SIFT算法最为著名,该算法提取的特征点与图像的旋转,大小无关,对于噪声,光线的容忍度也相当高,是一个划时代的特征提取算法。但是该算法的时间复杂度为指数级别,难以满足对处理时间要求特别高的的应用场景。因此后续有众多研究者对该算法进行优化研究,主要分为算法本身优化和通过硬件加速两方面。改进算法分别有SURF、ORB以及MSERS等。在硬件加速方式下,在GPU和FPGA下均有SIFT算法的实现。本文的工作和硬件加速是同一类型的研究工作,不同的地方在于本文是基于大数据处理框架Spark进行加速的,研究的是大数据背景下的特征提取加速。在众多大数据处理框架中,spark是一个内存计算类型的数据处理框架,在处理速度上有明显的优势。在此之前,暂时还没有研究者在Spark上进行大规模图像库特征提取工作的研究,于是本文基于Spark处理框架和SIFT算法,在上面开展大规模图像库特征提取的研究工作。在本文中,我们设计了一个基于spark的大规模图像特征提取系统SparkSIFT。该系统框架主要包含三部分:1)Spark图像基础库Spark-imageLib模块;2)Spark-sift特征提取功能模块;3)图片的序列化模块。之后本文又针对SparkSIFT系统提出了三种优化方案。第一,因为图片的体积相对Spark来说普遍较小,而Spark在加载众多小文件时读写效率很低,针对这一现象,本文提出了Key-Vaule的图片描述方式,将图片转化成记录的形式,再将记录合并保存以提高Spark的加载效率。第二,Spark在进行任务划分时仅考虑任务的总体积,而忽略任务中图片尺度大小,这一任务划分机制导致Spark-SIFT在处理图片大小相差较大的数据集时出现的负载不均衡问题,针对这一问题,本文提出了分割式特征提取算法,该算法核心思想是分而治之,先将大图片分割成小子块,并行处理,之后再统一收集,通过这种方式避免因为处理图片的尺度大小而导致负载不均衡现象。第三,本文针对分割式算法中引入的Shuffle操作,进一步提出了Shuffle-Efficient分割式提取算法,通过高效的分区策略减少跨分区收集同一张图片子块的网络开销。实验结果表明,本文提出并且设计的Spark-SIFT大规模图像特征提取框架取得了较好的加速效果。使用7台机器,处理4G图片集合,相对于单机提取,加速比达到了19.5,优于GPU的加速比。Key-Value的图片描述方式在加载11G图片数据集时,加载性能相对binaryFile方式提升了61.7%,相对于objectFile方式提升了83.3%;分割式提取算法较不分割提取算法在处理480M图片集合将提取速度进一步提高了7.8倍;Shuffle-Efficient分割式特征提取算法有效的减少在收集图片子块时的网络传输开销,在处理6.8G图片数据集时,高效的分区策略相对于Hash分区策略,收集的性能提高了29.7%。
其他文献
近年来,伴随着我国工业化的飞速发展,生态环境遭到了严重的破坏。各地“雾霾围城”新闻频见报端,昭示着中国的空气质量状况正在不断地恶化,区域性空气污染问题日益突出,严重
共青团组织是由中国共产党领导的一个由信仰共产主义的中国青年所组织在一起所形成的群众性组织,作为中国共产党同青少年沟通的桥梁和纽带,肩负着组织青少年、引导青少年、服
我国煤炭资源丰富,煤炭工业一直都是国民经济产业的重要组成部分。紧随信息时代,将互联网+大数据等信息科技技术引入煤炭工业将会大大提高其生产效率,不仅如此,还能有效实施矿井下的监控管理,以及安全隐患的预防和发生事故时的紧急施救。其中保证井下人员及设备的安全是是整个产业链的前提。反观煤矿井下的环境,地形复杂,很容易发生瓦斯爆炸、透水、顶板塌方等一些安全隐患,如果能实时对设备、人员进行跟踪对发生矿难后的救
根据汉语教师志愿者在泰国的实际教学情况,发现职业学校普遍存在没有固定教材,学生课堂纪律混乱等现象,因此,如何提高课堂教学质量成为汉语教师志愿者需要考虑的一个问题。通过分析发现主题式教学提倡合作式的教学模式更适用于当前这种教学环境。以我所在的职业学校为例,从学校性质、汉语课课程设置、教学目标、学生特点等角度分析,为主题式教学的实施提供了客观条件;以词汇为切入点,具体把饮食类词汇作为教学内容,从饮食类
近年来,许多新的科学技术不断涌现。人工智能也是促进社会发展的新技术之一。人工智能技术被广泛用于商业,医学,金融和在线服务等领域。本书《人工智能的优势:如何开创人工智能新时代》是一本科普书籍,介绍了世界上最新的顶级人工智能技术。本书介绍了一些人工智能技术在商业上成功的应用案例。然而,中国人工智能技术类翻译书籍不太常见。笔者对于人工智能技术感兴趣。因此,笔者选择这本书作为本次翻译项目的源文本。科普文本
互动剧作为数字影视作品中新兴的表现方式,富含了当下最具创新性的影视设计与技术。互动剧不仅丰富了观众观影从而带来了更好的用户体验,而且拓展了数字影视的应用市场。目前的互动剧设计主要关注剧情内容方面的创新,缺少了与智能交互技术的应用。基于此,本文按照发现问题、分析问题和解决问题的思路,对智能交互技术在互动剧方面的应用展开研究。本文首先阐述研究的背景、目的、方法和应用价值。其次对本文的三个核心概念:“数
目前,1060nm激光器应用十分广泛,如激光测距、激光医疗等,但多采用Nd:YAG等固体激光器,体积一般较大,重量通常在几千克到几十千克不等。近年来,短距离测距与瞄准系统正向大功率、小型化发展,要求1060nm激光器具有高效率、小尺寸和窄发散角等特性。而半导体激光器体积小、转换效率高、成本低,使得研究1060nm半导体激光器来取代固体激光器成为可能。因此,提出并制备高功率高效率的多有源区隧道级联1
释意学派是20世纪60年代末诞生于法国的一个研究口译及非文学文本笔译原理和教学的学派。该理论将口译过程描述为三个步骤:理解源语;脱离源语语言外壳;用目的语表达。该理论
本文利用常规气象观测资料、多普勒天气雷达资料、卫星产品和中国自动气象站与CMORPH降水融合产品,分别采用耦合MRF、UW、YSU边界层参数化方案的WRF中尺度数值模式对地形下垫面相对单一的浙江地区一次强对流天气及发生在地形下垫面较为复杂的甘肃地区一次强对流天气过程进行数值模拟。通过数值试验及对比分析,研究了三种边界层方案对两次对流降水触发机制、对流系统宏微观演变特征及降水机理模拟结果的影响,结果
粒子物理标准模型成功的统一并描述了电磁相互作用,弱相互作用和强相互作用,并涵盖了所有已知的基本粒子。随着顶夸克、τ中微子和Higgs玻色子的发现,标准模型的预言一步步被证实,其理论指导地位也不可撼动。虽然标准模型在理论上是自洽的,并且已经在提供实验预测方面取得了巨大的成功,但仍存在一些不足,比如它存在“规范等级”问题,也没能提供暗物质和暗能量的候选者等。这表明我们应在标准模型的基础上进行扩充,寻找