论文部分内容阅读
随着互联网技术的飞速发展和网络数据库资源的日益丰富,海量的信息以及巨大的搜索功能,让论文抄袭变得轻而易举。针对抄袭行为越来越严重这一现象,反论文抄袭的研究应运而生。文本复制检测将让那些有抄袭企图者不敢贸然付诸行动。文本复制检测系统能够为用户识别检测对象是否为复制文本提供决策支持。
本文研究了文本复制检测系统的基本原理及主要的检测策略和检测算法。在复制检测策略研究方面,主要分析了哈希断点分块检测策略,构建了搜索引擎模块,对不同长度的文本块计算哈希值,进行对比实验,以确定文本块边界。在复制检测算法研究方面,着重分析了基于字符串比较的匹配统计算法,特别是后缀树和后缀向量匹配统计算法。针对后缀树算法存在的“内存瓶颈’’问题,本文提出了一种基于紧凑后缀向量表示的匹配统计算法,采用动态节点存储与初始字符串相关的节点信息,直接从字符串读取边标记。紧凑后缀向量匹配统计算法不仅节约存储空间,而且消除了后缀树匹配统计算法中的一些冗余比较。
最后,构建了文本复制检测原型系统,对匹配引擎模块和搜索引擎模块进行测试,设计仿真实验比较了紧凑后缀向量匹配统计算法与后缀树匹配统计算法。实验结果表明与已有的后缀树复制检测算法相比,紧凑后缀向量匹配统计算法在测试文档集上表现出较好的运行速度和空间效率。