基于串匹配方法的文档复制检测系统研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:mnjhkiuu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档复制检测技术是数据安全领域中一个重要的研究课题,是保护知识产权和提高信息检索效率的一种有力手段。文档复制检测就是判断一篇给定文档是否抄袭﹑剽窃或者复制于另外一篇或者多篇文档的内容,剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换﹑同义词替换以及改变说法重述等方式。本文首先介绍了文档复制检测技术的基本原理,分析了现有检测系统的功能和特点,并阐述了构建系统所需要的关键技术。其次,为了解决现有检测系统的不足,利用Karp-Rabin串匹配算法的思想,提出了一个基于串匹配方法的文档复制检测系统,并描述了系统的体系结构和系统中各模块的工作原理。再次,指出了基于串匹配方法的文档复制检测系统应该具有的特性,并且解决了构建系统中的许多技术问题。采用重叠的文本块分割文档;定义“滚动”的散列函数把文本块映射成相应的散列值;设计抽样算法从散列值序列中提取文档特征,并对算法提取出文档特征的期望密度以及算法的正确性和复杂性给出了证明分析;提出新的文档相似性度量方法,不仅可以解决1:1的文档关系,也可以解决1:n的文档关系;采用数字查找树存储数据库中已有文档的文本特征,并用双链树表示其结构。最后,基于上述研究成果,采用面向对象的方法,实现了基于串匹配方法的文档复制检测原型系统,并对系统检测结果的准确性进行了评估。
其他文献
目前,嵌入式Internet技术的飞速发展将以太网推进到工业自动化控制层以至设备层。如果在DeviceNet和以太网之间设置嵌入式Web服务器,实现数据的远程访问,就可以打破“信息孤
由于集群的可扩展性好,性能价格比高,集群在服务器体系结构中所占的比重越来越大,集群应用的领域越来越多,如科学计算、生物工程、Web服务、FTP服务、E-Mail服务等等,这些集
下一代互联网的研究和建设正逐步成为信息技术领域的热点之一。而下一代互联网的网络安全则是下一代互联网研究中的一个重要的领域。目前中国第一个下一代互联网主干网CERNET
近年来,Internet网络流量剧增,并具有很强的突发性和不可预测性,对有效利用带宽提出了新的要求;同时,各种新业务不断出现,用户对QoS(Quality of Service)提出了不同的要求。I
企业信息化是国家信息化的重要组成部分,是贯彻落实“以信息化带动工业化”战略的重要举措,是带动企业各项工作创新和升级的重要突破口,是增强企业国际竞争力,实现跨越式发展的客
P2P流媒体系统根据发送节点的数量可以分为两种类型:单源(single source)的P2P流媒体和多源(multi-source)的P2P流媒体。实际上,单个节点没有能力或者根本不愿意提供足够大的
评价Ad Hoc网络的算法或协议优缺点主要通过仿真的方法来对比,但是模拟工具的不同和设置参数的不同容易使对同一个算法或协议的模拟结果也不同,因此进行参数初始化的时候可以通
基于图像的信息隐藏技术已经比较成熟,应用也日益广泛,但基于动态视频图像的信息隐藏技术目前还处在研究阶段。信息隐藏比加密技术更具有生命力,它能在不改变原始文件的大小的情
无线Mesh网络是一种新兴的并具有广泛应用前景的无线网络技术。但目前无线Mesh网络的发展还并不十分成熟,仍有许多问题亟待研究和完善。而路由技术是影响无线Mesh网络性能的关
如今,过程控制系统中的历史数据库(简称过程控制历史数据库)在信息化时代的工业生产中显得越来越重要,它专门用来存储和管理生产线中的过程数据,如温度、压力、流量、密度等。一