基于匹配统计算法的文本复制检测研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：alanlee75

【摘要】

：

随着互联网技术的飞速发展和网络数据库资源的日益丰富，海量的信息以及巨大的搜索功能，让论文抄袭变得轻而易举。针对抄袭行为越来越严重这一现象，反论文抄袭的研究应运而生。文

【作者】

：

刘韵毅

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2007年期

【关键词】

：

文本复制检测后缀树后缀向量匹配统计分块搜索引擎模块

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的飞速发展和网络数据库资源的日益丰富，海量的信息以及巨大的搜索功能，让论文抄袭变得轻而易举。针对抄袭行为越来越严重这一现象，反论文抄袭的研究应运而生。文本复制检测将让那些有抄袭企图者不敢贸然付诸行动。文本复制检测系统能够为用户识别检测对象是否为复制文本提供决策支持。本文研究了文本复制检测系统的基本原理及主要的检测策略和检测算法。在复制检测策略研究方面，主要分析了哈希断点分块检测策略，构建了搜索引擎模块，对不同长度的文本块计算哈希值，进行对比实验，以确定文本块边界。在复制检测算法研究方面，着重分析了基于字符串比较的匹配统计算法，特别是后缀树和后缀向量匹配统计算法。针对后缀树算法存在的“内存瓶颈’’问题，本文提出了一种基于紧凑后缀向量表示的匹配统计算法，采用动态节点存储与初始字符串相关的节点信息，直接从字符串读取边标记。紧凑后缀向量匹配统计算法不仅节约存储空间，而且消除了后缀树匹配统计算法中的一些冗余比较。最后，构建了文本复制检测原型系统，对匹配引擎模块和搜索引擎模块进行测试，设计仿真实验比较了紧凑后缀向量匹配统计算法与后缀树匹配统计算法。实验结果表明与已有的后缀树复制检测算法相比，紧凑后缀向量匹配统计算法在测试文档集上表现出较好的运行速度和空间效率。

其他文献

供应链视角下供应商质量供应能力研究

随着经济全球化和市场构成要素的不断发展，当今企业所依存的环境主要有以下变化趋势：顾客需求的个性化和多样化，市场条件变化的不确定性增强，企业间竞争程度的加剧以及由于技术进步等原因而造成的产品生命周期日趋缩短等。与此同时，随着市场由卖方向买方的转变，顾客对产品质量的要求也越来越高，至今，质量已经成为构成企业产品市场竞争力的关键因素。最终消费产品质量的高低取决于其形成过程所有工序，而并非供应链最后环节企

学位

供应链供应商质量供应能力质量供应能力指数

《伊利昂纪》中忒提斯形象分析

[中图分类号]：I106 [文献标识码]：A　　[文章编号]：1002-2139（2019）-33--01　　忒提斯是希腊神话老海神涅柔斯之女。在《伊利昂纪》中，与其他女神如赫拉、雅典娜、阿弗洛迪忒等在特洛伊战争中搅动风云、参与意识强烈的形象相比，忒提斯存在感和辨识度相对较弱，但她与色萨利国王佩琉斯婚礼上的金苹果事件，是引发特洛伊战争的导火索;战争成败的关键人物阿基琉斯是她的儿子，这些因素潜移默化

期刊

生态批评视角下的《守望灯塔》的解读

摘要：《守望灯塔》是英国女作家詹妮特·温特森的一部小说，2004年度被评为“21世纪年度最佳外国小说”。小说用独特的叙事手法讲述了一个叫银儿的孤儿和一个叫普尤的灯塔看守人之间的故事。另外，小说还体现了丰富的生态主义思想。本文从生态批评的视角出发，分别从自然生态，社会生态，和精神生态三个方面来解读这部小说，体会其中的生态意义。　　关键词：《守望灯塔》;自然生态;社会生态;精神生态　　作者简介：邸薇

期刊

《守望灯塔》自然生态社会生态精神生态

从《欧也妮?葛朗台》看巴尔扎克现实主义创作特征

摘要：《欧也妮·葛朗台》是法国19世纪批判现实主义大师巴尔扎克的代表作，塑造了世界文学史上著名的守财奴葛朗台的形象。文章从典型环境描写、典型形象塑造、细节描写三个方面分析了巴尔扎克的现实主义创作特征。　　关键词：《欧也妮·葛朗台》;典型环境;典型形象;细节描写　　作者简介：荆煜君（1969-），女，郑州铁路职业技术学院副教授。　　[中图分类号]：I106 [文献标识码]：A　　[文章编号]：10

期刊

《欧也妮?葛朗台》典型环境典型形象细节描写

从成长小说视角解读托尼?莫里森的《所罗门之歌》

摘要：托尼·莫里森是美国文学史上一位杰出的非裔女作家，《所罗门之歌》是她创作的第三部作品，讲述了主人公奶娃从困惑走向成熟的成长过程。本文致力于从成长小说视角对文本进行分析，以深化对文本的解读。　　关键词：《所罗门之歌》;成长小说;引路人;顿悟　　[中图分类号]：I106 [文献标识码]：A　　[文章编号]：1002-2139（2019）-33--02　　托尼·莫里森是美国文学史上第一个获得诺贝尔

期刊

《所罗门之歌》成长小说引路人顿悟

基于匹配统计算法的文本复制检测研究

其他学术论文