基于simhash的文本相似检测算法研究

来源 :中国工程物理研究院 | 被引量 : 5次 | 上传用户:meng010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似检测算法在海量自然语言文本信息处理中具有广泛的应用,包括常见的科技论文查重、大规模网页去重、科技论文自动摘要等。尤其是simhash指纹算法,不仅生成的指纹满足局部敏感特性,即通过指纹之间的距离度量就可以体现文本的相似程度。同时,该算法的指纹检索匹配过程因采用索引的方式而效率较高,能够在大规模文件系统中快速进行检索。经过历年来研究者的实验验证,simhash算法在文本检测过程中都有不错的表现。然而,不同于简单的完全重复查找,自然语言的复杂性对文本语义相似性的计算造成了极大的困难。simhash算法的设计初衷是为了在大规模数量的网页中去掉相同的网页,即只需要将文本表面内容完全或部分相同的内容筛选出来就可。而这里面不涉及文本的语义信息,无法支持近义词、多义词等自然语言处理上的语义问题。因此,利用simhash算法在文本处理上的“降维”优势,以及检索过程中的高效性,针对其不能对语义相似的文本内容进行识别,本文进行了基于simhash算法的语义相似性检测算法研究。首先,本文分析了常见文本相似计算算法的特点及其优缺点,通过比较分析,阐述了本文选择simhash算法作为基础算法进行改进研究的理由,并进一步指出其现有问题及针对这方面问题进行改进的研究思路。其次,针对simhash在文本语义相似性表现上的不足,通过对现有同义词扩展方案的研究,提出了基于同义词词林及上下文的语义编码设计。进一步地,根据本文所划分文本块的粒度特点,对指纹权值的确定进行修改,提出利用词汇词性作为权值的调整方案。综合改进方案,提出了融入同义词信息的语义指纹生成算法,解决了无法识别替换同义词的相似文本问题。另外,在海量文本的相似性检测过程中,需要在规模巨大的指纹库中进行比对操作,检索效率对整个算法的性能表现有很大影响。为提高匹配检索效率,在索引思想的基础上,提出将指纹进行分段,并结合位置信息生成分段索引的方案。在理论上,省去了大量冗余的比较计算,提升了整体的检测速度。最后,通过开发原型系统,并与其他文本相似检测算法进行对照实验验证。证明了本文所提出的基于语义指纹的相似文本检测算法可以用于解决当前simhash算法无法支持同义词替换识别以及一词多义判定问题,同时提升了检测效率,在今后更大规模的文本相似检测系统中可以有良好的表现。
其他文献
列车提速与铁路重载运输提高了铁路运输效率,但迫切需要解决列车安全和稳定运行的问题。例如钢轨的磨损、轮轨接触疲劳损伤等都需要运用探伤技术及时检测出来。文章介绍了应
交通肇事"因逃逸致人死亡"是指行为人在交通肇事后为逃避法律追究而逃跑,致使被害人因得不到救助而死亡的情形。"因逃逸致人死亡"的主观罪过既包括过失,也包括故意,其中大多
如何将活力注入历史课堂,是历史教师应该关注、思考和解决的当务之急。
网络问政作为网络时代政府执政和社会管理的创新形式,是实现政府善政与善治的助推器,在此背景下,如何有效提升政府执政能力成为社会关注的焦点。文章首先从执政理念、政府角
公益型大学生社团是培育大学生公益慈善意识主要载体,以志愿服务型学生社团为例,对公益慈善型大学生社团的发展路径进行系统的研究和探索,不仅是对寻求高校学生组织在如何培
随着物联网、大数据、云计算的悄然兴起,如何运用互联网思维改革养老服务产业成为我国老年产业发展重要议题。智慧养老模式是以互联网为支撑,将传统家庭养老、社区养老和机构
<正>一、陶艺家居饰品在现代室内居室空间中的现状现代陶艺进入室内居室环境并不是偶然的,陶瓷艺术从产生之日起就与人们的生活息息相关,如果说陶器最初的出现是人们生活中的
<正> 陶行知与杜威的关系,尤其是两人教育思想上的联系与区别,向为国内学界所重视。但言人人殊,颇多歧异。笔者这里提出一种见解,即陶行知与杜威的关系,包括两人教育思想之间
借鉴多年生产钛合金铸锭及中间合金的经验,依据真空感应熔炼特点,结合工业生产实际,对比了真空感应熔炼与真空自耗电弧熔炼两种工艺,分析确定出生产Ti-Cu合金的工艺参数和特
目的针对导致妇产科术后出现感染的相关因素进行分析,探讨临床护理干预措施及应用效果。方法分别选取本院妇产科2018年1月至2018年6月诊治的65例患者作为参照分析组,选取本院