海量图片去重算法研究

来源 :重庆交通大学 | 被引量 : 0次 | 上传用户:happykaijie1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络时代的发展,人们对信息资源掌握的增多,导致需要存储的数据量以几何级数在增长,网络带宽的不足、存储资源的紧缺以及等等诸多问题随之而来。解决这些问题的有效手段是清除重复数据,保证数据不存在冗余。而图片作为众多数据中的一种,经常出现在手机、网页这些人们日常使用的工具当中,其量级之大给存储设备带来极大的困扰。常用的清除重复数据的方法有文件级去重技术和块级去重技术,但是由于图片存在不易修改的特性,若采用文件级进行去重,耗时长、对系统性能损耗严重;又因为图片具有任意性,若采用块级进行去重,块的大小无法准确的适应每种图片,容易出现删除错误等严重问题。所以建立一种简单有效的图片重复删除技术成为科研人员的研究重点。本文提出了一种能够高效对海量图片进行去重的算法,该算法主要利用图片本身固有特征判断重复。利用图片本身特征能够克服块级去重时由于块大小无法适应所有图片导致其删除错误等问题,同时采用并行化计算及快速定位重复方法能够克服文件级去重时耗时长等问题。本论文首先介绍了清除重复数据的研究背景及意义,对常用的清除重复数据的技术进行了简介。由于这些方法对重复图片删除有一定的局限性,而本论文提出的方法主要利用图片本身特征,为了准确、高效的提取图片特征,对常用的图片特征进行了描述。其次,根据提取的特征,建立了多特征综合图片离线去重算法,通过对该算法的两次改进,使得其在单机i5处理器条件下处理500万级图片量时仅需要10分钟左右。然后,根据多特征综合离线去重算法的思路,提出了多特征综合图片在线去重算法。该算法利用对原始图片集进行分组从而能够降低新图片匹配等计算量的思路,实现了在新图片集为50万时,处理时间在25分钟左右,该算法为图片在线去重提供了解决思路。最后,将海量图片并行化去重算法思路进行了推广,将其应用在海量无声短视频去重研究中,经实验发现,对20万无声短视频进行去重时仅需要7-8分钟,去重时效性大大提高。
其他文献
随着无线网络产品应用的普及,无线网络管理软件的质量变得尤为重要,拟从工程实际的角度,将软件自动化回归测试引入WIFI网管软件测试,并在一个实际应用环境进行部署和评估。主
VoIP(Voice over IP)是近几年发展起来的一种新的IP网络业务,它是在IP网上传送具有一定服务质量的语音业务。随着IP技术的发展,电信网络的底层也逐渐采用IP承载,形成另一种形
图像拼接作为图像处理领域中的一个关键技术,是当前的一个热门研究方向,已经在PC平台上取得了不少的研究成果。然而,图像拼接在移动平台上的相关研究却一直比较少,一些传统的
在各种真实场景和人物动画的虚拟现实应用中,织物模拟都是必不可少的关键环节之一,其模拟效率和模拟效果往往对场景整体的效率和真实感起决定性作用。大量实践表明,实现织物
近年来随着人工智能及通信技术的发展,许多国际科研组织致力于自治网络的研究,希望通过设计全新的自治网络架构,实现网络的自我管理,这样既能满足用户多样化、个性化的业务需
平台自动调平技术广泛应用于军事、工业、科研等领域,对国民经济建设和社会发展具有重要的支撑作用。评价自动调平系统控制性能的主要性能指标有调平速度、调平精度以及稳定
随着信息技术的不断发展,互联网应用在我们的生活中也渐渐地普及起来,信息化生活已经拉开了帷幕。信息化生活能够使人们的生活更加丰富多彩、快捷便利,生活服务信息平台是为
测试数据生成是动态软件测试中的关键环节,它对于提高软件测试的能力有着至关重要的作用。测试数据生成问题吸引了许多学者对其进行研究,人们提出了多种测试数据生成方法(如随机
介词短语形式多样,位置灵活,是汉语中十分重要的短语类型之一。介词短语识别问题一直都是自然语言处理的研究热点,准确识别介词短语可以简化其所在句子的内部结构,缩小中心词
跨入21世纪以来,随着信息技术、计算机技术、网络技术等高科技的不断发展,企业的信息化的步伐也逐渐加快,从通常的手工操作到办公自动化套件的广泛应用,再到各式各样企业管理