论文部分内容阅读
随着计算机技术和信息技术的不断发展,尤其是互联网技术的日新月异,使得人们能获得信息成几何级飞速增长。但是面对着这些浩如烟海而又纷繁杂乱的信息资源,依靠人工的分析标引,甚至是单纯的匹配检索技术已经无法满足日益增长的变化的用户需求。从而需要计算机的智能处理技术来提高查找有用信息的效率,其中高效、准确的信息表示方式是各种后续智能处理的重要基础。
基于文本关键词的向量空间模型(VSM)对信息检索中的文本采用向量表示方法,为计算机处理文本信息提供了良好的表示方式。但是这种关键词的表示方法是基于词间关系相互独立的假设下,而在现实中往往同义词,近义词大量存在,同时忽视上下语境孤立地看待文本内容,势必影响查询结果的准确性和完整性。
本文所论述的潜在语义分析(LatentSemanticAnalysis,简称LSA)通过数学中的奇异值分解(SingularValueDecomposition,简称SVD)来分析文本集中各个词汇之间,各个文本之间,文本与提问式之间的关系,是一种产生关键词-概念(语义)之间映射规则的方法。LSA认为词语在文本中的使用模式内存在着潜在的语义结构,同义词之间应该具有基本相同语义结构,多义词必定具有不同的语义结构。LSA通过提取并量化这些潜在语义结构,进而消除同义词、多义词的影响,提供文本表示的准确性。而随后又出现的PLSA(ProbabilisticLatentSemanticAnalysis)对基于奇异值分解的LSA又进行了统计学极大似然估计重新解释。LSA最初应用在文本信息检索领域,它有效地解决了同义词、多义词问题,随着应用领域的不断拓展,LSA在信息过滤、跨语言检索、认知科学和数据挖掘中的信息理解、判断和预测等众多领域中得到了广泛的应用。
本文的创新之处是:采用奇异值分解数学方法对文本集进行潜在语义分析,对文本与提问式,文本与文本,词汇与词汇之间进行比较分析,用F范数对文本集降维程度进行度量,并尝试对潜在语义分析降维后的文本和词汇进行聚类分析。