论文部分内容阅读
外观专利图片包含着丰富的视觉信息,但是由于数量巨大,检索范围很大,若只靠人工识别,工作量非常大而且效率很低。然而,图像检索是数据密集型的计算过程,而在检索过程中将消耗大量CPU的资源,所以,系统引入了Hadoop框架的这一种分布式计算模型,经过实践,的确比原有的B/S单节点架构的图像检索系统提高了检索效率当中的把图像检索技术应用于MapReduce并行计算框架也解决了数据量快速增长导致增加系统负载而降低系统的实时性和并发性能差、不能处理大规模的数据等这些问题。MapReduce在处理多重数据集上,不能实现一次聚合所有数据集,每个MapReduce的中间结果都要作检查和shuffle操作来避免产生错误,系统实时性遭遇到瓶颈。Map-Join-Reduce这一扩展式的编程模型预处理方法可一次性地运用在多重数据集中,简化了数据分析任务,加速检索速度。Map-Join-Reduce是对MapReduce的一个扩展式编程模型,适用于多个数据集的混合运算处理,而且Map-Join-Reduce和MapReduce它们可以随意进行输入输出链式连接处理。该系统把主要的图像特征数据和著录信息数据使用Map-Join-Reduce作混合分布式处理。由于这两个数据集有一定的关联性,使用Map-Join-Reduce作混合分布式预处理,能够简化数据量,压缩搜索量,从而提高检索的效率。Map-Join-Reduce首先把两个数据表中拥有某一个著录信息的记录条目使用Map任务把它们都找出来,然后再以表中的专利号作为桥梁,使用Join任务把两个表合并最后Reduce输出,并给后面链式连接的MapReduce程序作检索操作。实验结果表明,该方法能够像原有MapReduce系统那样,均衡系统负载,提高资源利用率,有效降低了在大数据集上进行图像检索的时间,且相对于基于MapReduce的检索方法,能够进一步提高检索效率