相似网页去重算法的并行化研究与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:codeandme
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于Web镜像和网络转载抄袭,完全重复以及近似重复的网页数据对于当前的搜索引擎产生了一系列的问题:它不仅增加了网页数据索引的存储量而且给搜索引擎的检索服务带来了沉重的负担,与此同时,充斥着重复内容的搜索结果也带给搜索引擎用户较差的用户体验。所以对于搜索引擎来说,需要使用高效的相似网页探测算法去发现并去除近似重复网页,降低网络爬虫和搜索引擎的负担。搜索引擎技术近年来得到了快速发展,相似网页去重对于Web数据的搜集至关重要。对于相似网页去重系统来说,需要识别网页的主题内容块,与此同时去掉网页中例如广告等噪声内容。网页的文本数据将根据词典进行分词并基于Shingle算法提取网页的特征向量,使用Simhash算法针对网页的特征向量计算代表网页特征的指纹。该指纹所具备的特性是如果两张网页具有相似的网页内容,那么这对指纹将具有较小的汉明距离。此外,提出了传统Shingle算法的基于映射/规约模型的并行化改进,并通过实验进行了验证。给出了一种Web网页搜集系统的实用架构以及其中相似网页去重原型系统的设计实现方法。相似网页去重原型系统具备两种工作模式:第一种为在线工作模式,在这种模式下,单条网页指纹将同海量历史指纹数据进行比对;第二种为并行处理模式,该模式下,一批网页指纹将同海量历史指纹数据进行比对,与前者不同的是,海量历史指纹数据被分割成特定的数据块存储在分布式计算平台下,两批指纹数据的汉明距离计算过程将使用映射/规约并行编程模型进行处理。经过实验验证,采用并行处理方式的原型系统有效的解决了相似网页去重问题,并且达到了较高的效率和准确率。
其他文献
人脸是人们社会交流中所关注的焦点,在辨别身份和传递感情方面起着重要的作用。由于人脸识别技术在视频监控、访问控制、信用卡验证、多媒体数据库检索以及安全等领域有着广
随着企业信息化不断深入,企业资源安全成为最为急需解决的问题之一。访问控制对系统资源的安全性至关重要。访问控制的目标是防止用户对系统资源进行非授权的访问。分析研究
随着信息技术的迅猛发展,用户需求的不断升级,基于Internet技术的应用以惊人的速度渗透到社会生活的方方面面,Web站点俨然已成为一个巨大的信息集散地。如何快速、高效、准确
网络是人们获取知识和传递信息的桥梁。然而,随着近年来internet的高速发展,网络上信息的数量也呈现指数级的增长,在这一背景下,互联网使用者往往无法轻松找到需要的信息,一
随着人类社会和计算机技术的发展,信息化已成为社会发展的趋势。信息技术的发展也促成了高校的信息化,随着高校教育的普及,高校中的应用系统不断增加,数字化校园已成为各高校的发
随着世界信息技术的发展,信息化水平成为了国家之间综合实力的主要体现。谁能将信息根据需要实时、可靠的分发给用户谁就拥有信息优势,从而处于主导地位。这也是目前信息分发
随着互联网的不断建设和发展,互联网用户对网络应用多样化和网络服务性能的需求越来越高,特别是网络物理传输线速的进一步提升都极大地增加了高速主干网络测量和管理的难度。通
近年来,随着数值预报技术的发展和气象卫星探测能力的不断提高,人们越来越多地将卫星资料应用于数值预报中,并取得了明显的进展。然而,卫星资料的使用,云判断和云型分类是首要解决
多标签分类问题中每个数据样本往往对应一个由多个相关标签构成的标签子集合,而这个标签子集则反映了该样本所具有的多种语义意义。考虑到传统分类问题中每个样本有且仅有唯
网络的飞速发展,为我们提供了丰富的资源、信息,给我们的生活带来了方便,也为无数的学习者提供了快捷、方便的学习方式,使学习可以不受时间和空间的限制。与此同时,随着教育