基于语义加权的中文文本相似度计算研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:yummyumi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自从进入互联网时代,人们的生活已然离不开互联网和通信技术,繁杂的网络社会人群使信息呈几何级爆炸型增长。人们需要信息,但必须是经过处理后有用的信息,中文文本信息作为信息的重要组成部分,其处理的效果及效率必然受到大家的广泛关注。文本相似度是文本信息处理的一个基础环节,其计算结果直接影响后续的文本挖掘的效果。本文从应用最广泛的向量空间文本表示模型着手,就向量空间中常用的文本相似度计算方法,即余弦相似度展开研究。利用余弦距离度量文本相似度时,只是对文本中具有相同的词语进行计算,不考虑词语间的相关关系。而中文文本中蕴含着丰富的语义信息,词语之间也有着较强的语义关联,充分利用文本中的语义信息,提高文本相似度量效果是必然之势。为解决余弦相似度中忽略词语语义信息的问题,本文对余弦相似度计算中所用到的文本表示模型、特征权重的计算和余弦相似度公式进行了考察,分析了特征权重算法和余弦相似度公式的缺陷,提出了特征权重改进算法和语义加权文本相似度计算方法,这也是本文的创新点。具体的工作可以从以下两点说明:(1)词语之间的语义关联主要包括语义相关度和语义相似度。从概念上分析,语义相关度是包含语义相似度的,相关度表达的是两个词语在语义上具有的某种相互依赖、相互影响的特性,这对单一文本的复杂网络模型具有一定的指导意义。利用维基百科丰富的语义知识,计算词语之间的语义相关度,构建文本复杂网络模型。根据复杂网络的结构特征指标,构建特征项的评估函数CF,提出基于复杂网络的CF-IDF算法以改进文本相似度中特征权重的计算。(2)语义相似度是语义相关度的一种特例,是指两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。从词语相似度的角度看,两个文本之间即使没有相同的词语,但如果相似词语越多,也可以认定这两个文本具有一定的相似性,这正好弥补余弦相似度的不足。因此,本文利用知网计算词汇语义相似度,同时考虑到特征权重对文本相似度计算的影响,结合CF-IDF算法,在余弦相似度基础上提出一种语义加权的文本相似度计算方法。对上述两种改进算法进行实验验证。首先对CF-IDF特征权重算法进行中文文本分类验证,比较TF-IDF算法和CF-IDF算法对分类精度的影响。实验结果表明,本文提出的CF-IDF算法能够提高分类的效果。其次对语义加权文本相似度进行中文文本聚类验证,比较余弦相似度和本文的方法对聚类效果的影响。实验结果表明,相较于余弦相似度,本文提出的语义加权方法在F1值的评价标准上能够提高聚类效果。
其他文献
高管团队作为企业稀缺性、难以模仿性的资源而备受学术界的关注。近20余年来,学者们主要是从高管团队特征来研究组织绩效,但研究结果往往缺乏稳定性。本文回顾了高管团队的研
用美国VirtualModel320型听力计对正常青年人30名60耳,无耳病的中老年人40名80耳,进行高频测听。正常青年组均可测得9~20kHz的听阈,中老年组在9kHz以上频率听阈有所改变,老年组的改变尤为明显。本组结果表明:耳蜗系的
<正>比起品牌店的可预测潮流热款,在二手店你不知道会遇见什么好东西。经济下行的时候,什么东西最好卖?经济学理论告诉我们,有口红,还有内衣。而如今,或许还要再加上二手服饰
随着生活水平的不断提升,人们生活环境也发生翻天覆地的变化。为达到交通畅通无阻的要求,我国各等级别的公路不断建设与开发。在大多数公路路面建设中,对于基层施工建设材料
<正>对20年来被广泛应用的量表 SCL-90进行了纵向比较研究。2006年在全国范围抽取了成人样本1890 人,与 SCL-90的1986年的常模样本进行比较。结果发现:9个分量表中,躯体化、强
由于员工离职直接关系到员工与企业双方的利益,离职管理的不规范则极易引发劳动争议。本文从《劳动合同法》的角度出发,归纳了员工主动离职与被动离职的两种形式,分析了员工
目的探讨急性侵袭性真菌性鼻及鼻窦炎(acute invasive fungal rhinosinusitis,AIFRS)的临床与病理特征,提高对该病的认识。方法对1998~2009年18例AIFRS患者的临床资料进行回顾
从自组织理论的视角探讨了城市社区文化建设所面临封闭性、同质性建设以及缺少居民参与社区行动等方面的问题,提出通过促进社区文化系统的开放性、非平衡性以及非线性进行社
分析了中国民营企业员工流失的现状及原因,并对中国民营企业员工的流失提出了应对策略:建立现代企业制度,完善企业内部管理;建立有效的激励机制;树立"以人为本"的企业文化精