论文部分内容阅读
近年来,随着信息技术和通信网络的飞速发展,人们获取信息的方式从大量的物质介质转化为网络文档,这种发展给人们带来了方便的同时也给我们的生活和技术本身的发展起到负面的作用。相比于传统文件,电子文档更容易被非法复制,且文本抄袭现象出现在很多领域,如学术界,商业界等都已非常严重。为了维护高校正常教学秩序,保护知识产权,抑制抄袭现象的蔓延,文本抄袭检测技术的研究具有重要意义。目前文本抄袭检测研究领域中比较有效的检测系统有Siff, COPS和中国知网检测系统,但普遍存在检测准确率不高的问题。中文文本文本抄袭检测的主要思想是:首先对文本进行预处理,包括去掉文本中与文本检测无关的信息和文本分词;其次是提取文本特征;最后计算待测文本与源文本的相似度,若得到的相似度值较事先设定的阈值高,说明该待测文本有抄袭的嫌疑。文本预处理和特征提取是文本抄袭检测的研究重点和难点。文本围绕这两个方面开展研究,主要研究工作包括:1、文本预处理:目前,大多针对中文的文本抄袭检测方法都是对文本进行简单的处理,未考虑中文文本的单字词与多字词特征,从而导致文本特征提取不全面的问题,致使检测准确率不高。针对此问题,提出一种合并整体词的文本预处理方法,在文本分词之后,根据各个词的前后语义关系,合并具有整体意义的词,以此作为文本预处理结果。实验表明,经过合并整体词后的文本,能减少后文中的计算次数,为特征提取提供更好的提取方案,从而提高检测准确率。2、文本特征提取:特征提取是要选取能够代表文本特征的文本块。选出的文本块要求是能代表文本特征的信息,包括语义信息和一定的结构信息,使文本抄袭检测的准确率尽量高。但是现阶段的提取方法,提取的特征不全和特征数量太多,算法的计算次数多,时间复杂度高等问题。针对此类问题,我们提出将预处理之后的文本进行二次特征提取,提高特征的精确度和减小特征长度。主要采用数字指纹来表示文本信息,将所有的文本转化为数字指纹集合,统计各个指纹出现的频度,并将指纹集合利用匹配统计的相似度计算方法进行相似度计算。实验表明,本特征提取方法提取的特征能够精确地代表文本,且长度适中。3、基于二次特征提取的中文文本抄袭检测方法:分别采用我们提出的合并整体词的文本预处理方法处理文本和二次特征提取方法提取本文特征,实现基于二次特征提取的中文文本抄袭检测方法。实验表明,该检测方法的检测准确率和查全率都有明显提高。