论文部分内容阅读
自20世纪90年代学术界提出反对学术腐败以来,被揭露出来的学术腐败事件最多的是学术造假,其中又以学术著作和论文的抄袭为最。解决论文抄袭的判定问题不但对于保护知识产权、提高学术论文质量、净化学术领域、防止学术腐败都有很重要的意义,而且可以有效的防止一稿多投和减轻审稿人员的工作负担。文本挖掘是数据挖掘研究面向非结构化和半结构化文本数据的自然延伸。人们日常生活和工作中接触到的信息有大多数都是以文本形式出现的,文本挖掘是从文本或文本集中发现和挖掘归纳性的有效、创新、有用和最终可理解的模式、模型、趋势、规则等知识的非平凡过程。文本挖掘是利用智能算法,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、电子邮件、书籍、网页等)抽取或标记关键字概念,文字间的关系,并按照内容对分档进行分类,获取有用的知识和信息。如何将文本挖掘中的主要技术应用于论文抄袭判定中,这是本文的主要研究目的。主要研究成果工作如下:(1)依据论文抄袭界定的法律,分析归纳了论文抄袭的类型和论文抄袭判定的主要技术,包括数字指纹技术和词频统计技术;(2)探讨和研究了文本挖掘中涉及的信息检索与信息抽取技术以及文本挖掘的主要方法(关联分析、文本分类、文本聚类、自动文摘等);(3)在分析各种文本相似度计算主要方法的基础上,设计和实现了基于文本分类的文档相似度计算和基于段落词频统计的文档相似度计算,在实际测试中,效果较好;(4)结合全文相似度计算、段落相似度计算和语句相似度计算的技巧,设计并实现一个基于文本分类思想的论文抄袭判定系统。