基于文本挖掘技术的论文抄袭判定研究

被引量 : 0次 | 上传用户:ggg_0907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自20世纪90年代学术界提出反对学术腐败以来,被揭露出来的学术腐败事件最多的是学术造假,其中又以学术著作和论文的抄袭为最。解决论文抄袭的判定问题不但对于保护知识产权、提高学术论文质量、净化学术领域、防止学术腐败都有很重要的意义,而且可以有效的防止一稿多投和减轻审稿人员的工作负担。文本挖掘是数据挖掘研究面向非结构化和半结构化文本数据的自然延伸。人们日常生活和工作中接触到的信息有大多数都是以文本形式出现的,文本挖掘是从文本或文本集中发现和挖掘归纳性的有效、创新、有用和最终可理解的模式、模型、趋势、规则等知识的非平凡过程。文本挖掘是利用智能算法,并结合文字处理技术,分析大量的非结构化文本源(如文档、电子表格、电子邮件、书籍、网页等)抽取或标记关键字概念,文字间的关系,并按照内容对分档进行分类,获取有用的知识和信息。如何将文本挖掘中的主要技术应用于论文抄袭判定中,这是本文的主要研究目的。主要研究成果工作如下:(1)依据论文抄袭界定的法律,分析归纳了论文抄袭的类型和论文抄袭判定的主要技术,包括数字指纹技术和词频统计技术;(2)探讨和研究了文本挖掘中涉及的信息检索与信息抽取技术以及文本挖掘的主要方法(关联分析、文本分类、文本聚类、自动文摘等);(3)在分析各种文本相似度计算主要方法的基础上,设计和实现了基于文本分类的文档相似度计算和基于段落词频统计的文档相似度计算,在实际测试中,效果较好;(4)结合全文相似度计算、段落相似度计算和语句相似度计算的技巧,设计并实现一个基于文本分类思想的论文抄袭判定系统。
其他文献
李大钊作为中国最早的马克思主义者,他率先在中国举起了马克思列宁主义的大旗,积极介绍和宣传马克思主义,为中国社会的发展指明了新的方向。他在短暂的一生中对社会主义学说进行
陈独秀可谓是“特独秀为汝南晨鸡,先登坛唤耳”(章士钊),虽遭世人颇多争议,然而陈独秀对新文化运动,对当时风云变幻年代的国人的启蒙,是谁也不能进行否定的,陈独秀创立的《新
从病毒的致病机理,抗病毒药的作用机理、临床常用的抗病毒药物、抗病毒药物的最新研究及抗病毒药物治疗中存在的问题等几个方面进行了综述。
期刊
背景:burkitt淋巴瘤在中国是非常少见的,仅仅主要侵犯胃的burkitt淋巴瘤就更少了。由于胃淋巴瘤的临床症状与胃癌的临床症状非常相似,胃淋巴瘤的诊断通常是比较困难。Burkitt
何谓正义,它何以可能?这在政治哲学史上从来就是一个无法取得一致同意的问题。正义之作为一种人类的价值准则和行为标准,其对于人类政治的重要意义又使得无数思想家致力于寻
近年来,随着当今世界交通拥堵问题日益严重,很多国家都开始寻找解决城市拥堵问题的电子化解决方案。多车道自由流电子收费系统有效地缓解了城市拥堵问题。但是当前的多车道自
简要介绍玻璃幕墙的优点和缺陷.
行政服务窗口是政府部门和公众直接接触交流的平台本文以市场监管所窗口服务标准化试点实例解析行政窗口服务标准化建设的路径和措施希望能为进一步提供良好的公共服务,加快
随着中国保险市场的全面开放,新兴保险主体的增加和分支机构的扩张,这使得山东省人身保险市场的竞争必将日趋激烈。山东省人身保险企业作为众多保险公司的重点战略机构,在人
引导部分地方本科院校向应用型转型发展是党中央、国务院做出的重大决策部署。进入新时代,一大批应用型转型标杆院校勇立潮头,成为优化区域高等教育结构、服务区域产业发展的