论文部分内容阅读
随着Internet的快速发展,信息资源数量的急剧增长,从而产生了信息爆炸的危机,Internet上的海量信息远远超乎人们的想象,并且海量信息没有体现其巨大的价值,有用的信息和无用的信息混杂在一起,如何从海量信息中发掘到有价值的信息,是当今世界人们所面临的一个难题,也是智能信息处理领域中人们关注的问题之一。信息检索是目前智能信息处理领域中人们关注的问题之一,它致力于将信息按照一定的方式组织和存储,并根据需要找出特定信息。粗糙集理论和模糊集理论都是经典集合论的拓展和重要发展,都能够处理不确定和不精确的信息和知识。以粗糙集理论和模糊集理论为基础的信息处理技术得到广泛的应用,将两者有机地结合,能够增强它们在智能信息处理中的能力。文档的信息检索过程实际上涉及文档集的表示、用户查询的表示、相似性匹配及其排序三部分,本文基于粗糙集、模糊集理论给出了一种信息检索模型。利用模糊集理论中的模糊集合间中的包含关系——包含度定理,利用其中的“包含”关系体现了文档集和用户查询之间的匹配,并用其包含度实现检索结果文档集的排序。利用粗糙集里面的等价关系体现了关键词之间的关系,从而实现了同义词的检索。比较分析传统的信息检索模型,该模型解决了布尔模型中匹配严格的缺点,以及向量模型中忽略了关键词之间的相互联系的缺点。与传统粗糙集模型相比,该模型能够对文档集的权重进行表示,并且通过用户查询式,用户可以给出每个关键词的兴趣度。本文的主要工作包括以下几个方面:(1)分析几种传统信息检索模型,即布尔模型、向量模型、概率模型,研究其优缺点。(2)介绍粗糙集、模糊集相关知识,将模糊集里的包含度定理引入信息检索,构成一种基于模糊集的信息检索模型,有效地克服了布尔模型匹配过于严格的缺点,以及只能用布尔量表示关键词的缺点。(3)在基于模糊集的信息检索方法中没考虑标引词之间联系的缺点上,提出了本文的基于粗糙模糊集的检索方法。本文利用粗糙模糊集理论中的上近似、同义等价关系,对用户查询和文档集进行了同义扩充,即根据同义信息,对用户查询和文档集进行了扩充,从而为提高检索查全率提供了基础。(4)在上述思想的基础上,通过实验来进行模拟匹配,并分析比较了基于模糊集方法和基于粗糙模糊集方法,从而体现了基于粗糙模糊集方法的优点所在。但是由于本文中的实验只是进行了模拟匹配,所以还有许多需要改善的地方。如,怎样将其进一步在实际情况中应用和推广,将是下一步工作的研究重点。