论文部分内容阅读
随着网络时代的发展,人们对信息资源掌握的增多,导致需要存储的数据量以几何级数在增长,网络带宽的不足、存储资源的紧缺以及等等诸多问题随之而来。解决这些问题的有效手段是清除重复数据,保证数据不存在冗余。而图片作为众多数据中的一种,经常出现在手机、网页这些人们日常使用的工具当中,其量级之大给存储设备带来极大的困扰。常用的清除重复数据的方法有文件级去重技术和块级去重技术,但是由于图片存在不易修改的特性,若采用文件级进行去重,耗时长、对系统性能损耗严重;又因为图片具有任意性,若采用块级进行去重,块的大小无法准确的适应每种图片,容易出现删除错误等严重问题。所以建立一种简单有效的图片重复删除技术成为科研人员的研究重点。本文提出了一种能够高效对海量图片进行去重的算法,该算法主要利用图片本身固有特征判断重复。利用图片本身特征能够克服块级去重时由于块大小无法适应所有图片导致其删除错误等问题,同时采用并行化计算及快速定位重复方法能够克服文件级去重时耗时长等问题。本论文首先介绍了清除重复数据的研究背景及意义,对常用的清除重复数据的技术进行了简介。由于这些方法对重复图片删除有一定的局限性,而本论文提出的方法主要利用图片本身特征,为了准确、高效的提取图片特征,对常用的图片特征进行了描述。其次,根据提取的特征,建立了多特征综合图片离线去重算法,通过对该算法的两次改进,使得其在单机i5处理器条件下处理500万级图片量时仅需要10分钟左右。然后,根据多特征综合离线去重算法的思路,提出了多特征综合图片在线去重算法。该算法利用对原始图片集进行分组从而能够降低新图片匹配等计算量的思路,实现了在新图片集为50万时,处理时间在25分钟左右,该算法为图片在线去重提供了解决思路。最后,将海量图片并行化去重算法思路进行了推广,将其应用在海量无声短视频去重研究中,经实验发现,对20万无声短视频进行去重时仅需要7-8分钟,去重时效性大大提高。