论文部分内容阅读
自从进入互联网时代,人们的生活已然离不开互联网和通信技术,繁杂的网络社会人群使信息呈几何级爆炸型增长。人们需要信息,但必须是经过处理后有用的信息,中文文本信息作为信息的重要组成部分,其处理的效果及效率必然受到大家的广泛关注。文本相似度是文本信息处理的一个基础环节,其计算结果直接影响后续的文本挖掘的效果。本文从应用最广泛的向量空间文本表示模型着手,就向量空间中常用的文本相似度计算方法,即余弦相似度展开研究。利用余弦距离度量文本相似度时,只是对文本中具有相同的词语进行计算,不考虑词语间的相关关系。而中文文本中蕴含着丰富的语义信息,词语之间也有着较强的语义关联,充分利用文本中的语义信息,提高文本相似度量效果是必然之势。为解决余弦相似度中忽略词语语义信息的问题,本文对余弦相似度计算中所用到的文本表示模型、特征权重的计算和余弦相似度公式进行了考察,分析了特征权重算法和余弦相似度公式的缺陷,提出了特征权重改进算法和语义加权文本相似度计算方法,这也是本文的创新点。具体的工作可以从以下两点说明:(1)词语之间的语义关联主要包括语义相关度和语义相似度。从概念上分析,语义相关度是包含语义相似度的,相关度表达的是两个词语在语义上具有的某种相互依赖、相互影响的特性,这对单一文本的复杂网络模型具有一定的指导意义。利用维基百科丰富的语义知识,计算词语之间的语义相关度,构建文本复杂网络模型。根据复杂网络的结构特征指标,构建特征项的评估函数CF,提出基于复杂网络的CF-IDF算法以改进文本相似度中特征权重的计算。(2)语义相似度是语义相关度的一种特例,是指两个词语在不同的上下文中可以互相替换使用而不改变文本的句法语义结构的程度。从词语相似度的角度看,两个文本之间即使没有相同的词语,但如果相似词语越多,也可以认定这两个文本具有一定的相似性,这正好弥补余弦相似度的不足。因此,本文利用知网计算词汇语义相似度,同时考虑到特征权重对文本相似度计算的影响,结合CF-IDF算法,在余弦相似度基础上提出一种语义加权的文本相似度计算方法。对上述两种改进算法进行实验验证。首先对CF-IDF特征权重算法进行中文文本分类验证,比较TF-IDF算法和CF-IDF算法对分类精度的影响。实验结果表明,本文提出的CF-IDF算法能够提高分类的效果。其次对语义加权文本相似度进行中文文本聚类验证,比较余弦相似度和本文的方法对聚类效果的影响。实验结果表明,相较于余弦相似度,本文提出的语义加权方法在F1值的评价标准上能够提高聚类效果。