基于语义理解的论文相似度研究

被引量 : 0次 | 上传用户:gzsoft168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前社会,信息技术、计算机技术与语言学(统计语言学与语料库语言学的兴起与发展)处于一个高速发展时期,这为相似度研究打下了坚实的基础。与此同时,各个高校中也发生少量的学术不端行为,主要表现在抄袭、剽窃、侵吞他人学术成果,给整个学术界的声誉以及高校的学术质量造成了极坏的影响,因此急需论文检测系统来提高论文的质量,为防止其不端行为的发生,目前的各种论文检测系统在高校被广泛应用,在一定程度上遏制了学术不端行为的发生,但是目前的论文检测系统主要侧重于字面上的重复度检测,而对语法结构的调整、图像、公式等非结构化的检测相对欠缺。结合其检测系统的不足与相似度研究的现状,以相似度研究在论文检测中的应用为方向展开研究,希望有助于相似度研究在应用方面取得成绩。本文先从相似度的概念、相似度计算的原则、应考虑的因素以及具体的相似度算法等方面来分析文本相似度与语义相似度,通过对其算法的分析,考虑到各种算法的优缺点,最后选择了以《知网》为基础的词语相似度算法,并在原有算法的基础上对原有算法进行了改进,在词语相似度的计算过程中引入了本体相似度算法中的语义密度因子,并且将此算法延伸到句子相似度、段落相似度与论文相似度的计算;通过词语相似度、句子相似度、段落相似度与论文相似度四个层次的算法分析,把语义理解应用到论文检测中,根据其各个层次的计算给出了在论文检测中其相对应的模块及流程;最后根据本文涉及到的相似度算法,通过相应的实验验证了其算法的有效性与实用性,实现了其相似度计算在论文检测领域的部分应用,其主要是指在词语相似度、句子相似度与段落相似度的应用,在一定程度上实现论文检测的真正意义。
其他文献
何绍基是宋诗运动中举足轻重的人物,在诗书方面都颇有造诣,但一直以来,其诗名为书名所掩。本文从文本出发,对何绍基诗歌内容和诗歌艺术方面进行综合研究,以求对何绍基不俗论
高等教育组织文化研究出现了心理学、社会学、组织行为学和文化人类学等多学科发展路径,分析框架和研究模型也因此呈现出多样化状态。同时,与高等教育改革发展的历史特征相呼
中国电视剧的对外传播从20世纪80年代开始,三十年中取得了较大的发展和进步。随着电视剧资源和对外传播媒介建设的优势显现,中国电视剧在传播范围上由港台东南亚扩大到欧美和
氯嘧磺隆、乙草胺和氟磺胺草醚是大豆田中常用的三种除草剂,由于其具有高效、广谱、低毒和高选择的特点而大面积推广使用,成为目前重要的除草剂品种。但其残留期长,易形成农
对于地基中含有多条软弱带、裂隙等可能构成多种组合滑动形式的重力坝深层抗滑稳定问题,由于滑动面不明确,无法采用传统的刚体极限平衡法进行分析。强度折减法无需假设滑裂面
鉴于传统城市管理模式存在的弊端,中国一些城市开始探索和实施数字化城市管理系统,并取得了显著成效。数字化城市管理通过改造行政流程,实现了监督权与管理权相分离,建立了政
我国《烟草专卖法》将无证生产、批发及特种经营行为的行政处罚权配置给烟草专卖行政主管部门,而将无证零售经营行为的行政处罚权配置给工商行政主管部门。这种行政处罚权配
目前高保真物理计算中大多采用基于特征线方法(MOC)的二维/一维(2D/1D)耦合方法作为中子输运求解器,经典的2D/1D耦合中子输运算法中,泄漏项计算的准确度直接影响最终收敛结果
引言包装印刷是印刷领域里的一个分支,它伴随着轻纺,医药、卷烟、食品等工业的发展而不断发展,并已成为一个独立的门类.随着科学技术的发展,各项技术应用于包装印刷之中,促进
在一个国家和社会,法官作为社会纠纷的最终裁决者,其适用法律(实体法和程序法)是否公正,直接决定司法公正能否实现。法官在英文中称为judge或justice,意思是“其职责是裁决纠