潜在语义分析理论研究及其应用

来源 :上海大学 | 被引量 : 0次 | 上传用户:mbcz123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和信息技术的不断发展,尤其是互联网技术的日新月异,使得人们能获得信息成几何级飞速增长。但是面对着这些浩如烟海而又纷繁杂乱的信息资源,依靠人工的分析标引,甚至是单纯的匹配检索技术已经无法满足日益增长的变化的用户需求。从而需要计算机的智能处理技术来提高查找有用信息的效率,其中高效、准确的信息表示方式是各种后续智能处理的重要基础。 基于文本关键词的向量空间模型(VSM)对信息检索中的文本采用向量表示方法,为计算机处理文本信息提供了良好的表示方式。但是这种关键词的表示方法是基于词间关系相互独立的假设下,而在现实中往往同义词,近义词大量存在,同时忽视上下语境孤立地看待文本内容,势必影响查询结果的准确性和完整性。 本文所论述的潜在语义分析(LatentSemanticAnalysis,简称LSA)通过数学中的奇异值分解(SingularValueDecomposition,简称SVD)来分析文本集中各个词汇之间,各个文本之间,文本与提问式之间的关系,是一种产生关键词-概念(语义)之间映射规则的方法。LSA认为词语在文本中的使用模式内存在着潜在的语义结构,同义词之间应该具有基本相同语义结构,多义词必定具有不同的语义结构。LSA通过提取并量化这些潜在语义结构,进而消除同义词、多义词的影响,提供文本表示的准确性。而随后又出现的PLSA(ProbabilisticLatentSemanticAnalysis)对基于奇异值分解的LSA又进行了统计学极大似然估计重新解释。LSA最初应用在文本信息检索领域,它有效地解决了同义词、多义词问题,随着应用领域的不断拓展,LSA在信息过滤、跨语言检索、认知科学和数据挖掘中的信息理解、判断和预测等众多领域中得到了广泛的应用。 本文的创新之处是:采用奇异值分解数学方法对文本集进行潜在语义分析,对文本与提问式,文本与文本,词汇与词汇之间进行比较分析,用F范数对文本集降维程度进行度量,并尝试对潜在语义分析降维后的文本和词汇进行聚类分析。
其他文献
随着信息技术的飞速发展和应用范围的不断拓宽,数据库系统逐渐进入各个领域,由于数据库主流技术一直在变化,导致了各种不同时期数据库产品的同时存在。为联合使用这些异构数
随着我国远程教育事业的飞速发展,远程教育教学质量已经成为我国政府和社会都非常关注的问题。远程教育教学质量评估作为保证和提高远程教育教学质量的重要手段,已经逐渐受到政
  本文从服务机制的角度,对高校档案信息服务工作的创新进行了探索和研究,旨在更好地总结经验,探讨创新服务机制的新思路、新方法,使之能够建立适应现代社会信息需求的高校档案
本人对通知服务的研究成果做了大量调研,结合数字图书馆应用的实际情况,提出了通知服务在数字图书馆中的四种应用模式:基本的通知服务模式、加入事件通道的通知服务模式、加入事