论文部分内容阅读
信息检索是随着科学技术的发展和信息量的激增而产生的技术,并在人们的工作和生活当中发挥着越来越重要的作用。人们在平时经常用到的信息大部分都是用文本形式来表示的,所以经常用到的查询就是文本形式的信息检索,即文本信息检索。人们在面对大量信息的时候,如何从这些大量的信息中检索出满足用户查询条件的信息是非常重要的。对文本信息进行查询时,首先要使用合适的数据模型对文本信息进行抽象,本文采用向量空间模型(Vector Space Model),对文本信息进行特征向量的提取,这样在对文本进行相似度匹配的时候,就可以选用文本特征向量对相似度进行比较。在对文本特征向量进行相识度比较的时候,本论文采用了基于语义度量的方法—扩散映射(Diffusion Maps),该方法在对文本特征向量进行处理的时候,可以把高维的数据通过扩散映射降为低维数据,在扩散的过程中,扩散距离可以保持数据语义之间的不变性。对经过扩散映射处理过的数据,本论文定义了一个二值法,如果向量的第p位的值大于或等于所有向量的第p位的平均值则其值为+1,小于向量平均值的为-1,这样文本就用一串低维数的二值向量来表示。对文本进行检索时,对那些要查询的文档,根据刚才得到的二值向量,训练出来分类器,然后用分类器对要查询的文档进行分类,就可以对查询文档用二值向量来表示,就可以加快文件的检索速率。本论文使用Reuters21578,20Newsgroups, TDT2,作为测试数据集合,对我们提出的基于语义度量的文本检索的方法扩散映射—支持向量机(Diffusion Map-Supported Vector Machine, DM-SVM)进行了验证,实验证明该方法具有很高的检索效率。