基于二次特征提取的中文文本抄袭检测方法

来源 :西南大学 | 被引量 : 0次 | 上传用户:jiangchao1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术和通信网络的飞速发展,人们获取信息的方式从大量的物质介质转化为网络文档,这种发展给人们带来了方便的同时也给我们的生活和技术本身的发展起到负面的作用。相比于传统文件,电子文档更容易被非法复制,且文本抄袭现象出现在很多领域,如学术界,商业界等都已非常严重。为了维护高校正常教学秩序,保护知识产权,抑制抄袭现象的蔓延,文本抄袭检测技术的研究具有重要意义。目前文本抄袭检测研究领域中比较有效的检测系统有Siff, COPS和中国知网检测系统,但普遍存在检测准确率不高的问题。中文文本文本抄袭检测的主要思想是:首先对文本进行预处理,包括去掉文本中与文本检测无关的信息和文本分词;其次是提取文本特征;最后计算待测文本与源文本的相似度,若得到的相似度值较事先设定的阈值高,说明该待测文本有抄袭的嫌疑。文本预处理和特征提取是文本抄袭检测的研究重点和难点。文本围绕这两个方面开展研究,主要研究工作包括:1、文本预处理:目前,大多针对中文的文本抄袭检测方法都是对文本进行简单的处理,未考虑中文文本的单字词与多字词特征,从而导致文本特征提取不全面的问题,致使检测准确率不高。针对此问题,提出一种合并整体词的文本预处理方法,在文本分词之后,根据各个词的前后语义关系,合并具有整体意义的词,以此作为文本预处理结果。实验表明,经过合并整体词后的文本,能减少后文中的计算次数,为特征提取提供更好的提取方案,从而提高检测准确率。2、文本特征提取:特征提取是要选取能够代表文本特征的文本块。选出的文本块要求是能代表文本特征的信息,包括语义信息和一定的结构信息,使文本抄袭检测的准确率尽量高。但是现阶段的提取方法,提取的特征不全和特征数量太多,算法的计算次数多,时间复杂度高等问题。针对此类问题,我们提出将预处理之后的文本进行二次特征提取,提高特征的精确度和减小特征长度。主要采用数字指纹来表示文本信息,将所有的文本转化为数字指纹集合,统计各个指纹出现的频度,并将指纹集合利用匹配统计的相似度计算方法进行相似度计算。实验表明,本特征提取方法提取的特征能够精确地代表文本,且长度适中。3、基于二次特征提取的中文文本抄袭检测方法:分别采用我们提出的合并整体词的文本预处理方法处理文本和二次特征提取方法提取本文特征,实现基于二次特征提取的中文文本抄袭检测方法。实验表明,该检测方法的检测准确率和查全率都有明显提高。
其他文献
文本聚类是数据挖掘领域的一个重要分支。随着互联网的飞速发展,文本形式的信息不断增多。文本聚类技术已成为对文本信息进行有效地组织、摘要和导航的重要手段,被越来越多的
目前,我国大部分煤矿开采还依靠人工操作,人工矿下开采具有危险性,人为失误和矿下环境异常都会引起矿井重大事故。本文将热点技术RFID技术应用到传统的矿井安全管理上,实现矿
随着互联网的发展,信息量急剧增长,如何高效处理海量数据成为一个非常严峻的问题。传统方式下处理大数据费用昂贵,而在云计算变革中诞生的Hadoop平台能够轻松应对庞大数据量,
功耗评估是功耗优化的基础。近年来,功耗已经成为处理器设计的重要限制因素,更凸显了功耗评估在处理器设计中的作用。单核处理器时代已经过去,片上多核处理器不可阻挡地成为当今
随着网络规模的日益庞大和复杂,网络带宽急剧增加,基于网络的互联网服务呈现多样化的发展,这使得互联网的运行机制和行为特征错综复杂,因此,加强网络管理,对网络QoS进行实时的控制
随着互联网的迅速发展,近几年来社交网络服务越来越流行,成为了很多人生活中的重要组成部分。社交网络的流行在带给人们便利的同时,也给人们带来了信息过载的困扰,推荐系统是解决
云制造是一种网络化制造新模式,它旨在实现基于知识的制造资源共享与按需使用,从而提高资源利用率和企业核心竞争力。服务组合与优选是实现制造资源优化配置的核心技术之一,鉴于
基因芯片技术是研究基因表达谱数据的一种有效工具,通过分析基因表达谱数据中的数千个基因数据,在医学等领域得到了广泛的应用。基因表达谱数据急速增长,表现出规模庞大、内容复
随着数据爆炸时代的到来,如何高效地对TB级甚至是PB的大规模数据进行处理是业界迫切急需解决的问题。在应用需求和技术推动下,云计算作为一种新的计算模式被提出来了,并逐步成为
由于以IPv4为核心的互联网出现的问题越来越多,各个国家的新一代互联网研究计划不断启动、实施和重组,其研究工作和实验正在不断的深入。目前关于新一代互联网的研究,有人想