基于语句相似度的中文文本复制检测技术研究

论文部分内容阅读

随着网络和计算机的普及,电子文档成为一种应用广泛的信息存储形式。电子文档方便共享、存储代价低,为知识的传播提供了很大的便利,但是这一特性也导致了复制抄袭的普遍性,文本复制检测技术应运而生。文本复制检测技术主要用于检测文本之间是否存在复制、抄袭等,是自然语言处理领域重要的研究方向,该技术可以应用在数字图书馆系统、搜索系统、论文提交系统等很多领域。在研究基于知网的词语相似度计算方法的基础上,本文提出一种改进的词语相似度计算方法。该方法通过知网的KDML语言,把词语的相似度转换为义原集合的相似度,综合词语含义的共性和差异性,使得相似度计算结果更加合理。此外,还提出一种改进的基于词语结构和词语顺序的文本相似度计算方法。该方法综合考虑了文本的词语语义特征、局部结构特征和词序特征,提取的特征更为全面,计算得到的文本相似度结果更加准确。最后,本文利用提出的基于词语结构和词序的相似度计算方法,实现了中文文本复制检测系统。该复制检测系统基于B/S结构,采用SSH技术框架,包含文本预处理模块、文本检测模块、结果显示模块和样本库模块。论文利用该复制检测系统进行了算法验证,结果证明了改进方法的有效性。

其他学术论文