基于粗糙模糊集的信息检索研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:mkkkj2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,信息资源数量的急剧增长,从而产生了信息爆炸的危机,Internet上的海量信息远远超乎人们的想象,并且海量信息没有体现其巨大的价值,有用的信息和无用的信息混杂在一起,如何从海量信息中发掘到有价值的信息,是当今世界人们所面临的一个难题,也是智能信息处理领域中人们关注的问题之一。信息检索是目前智能信息处理领域中人们关注的问题之一,它致力于将信息按照一定的方式组织和存储,并根据需要找出特定信息。粗糙集理论和模糊集理论都是经典集合论的拓展和重要发展,都能够处理不确定和不精确的信息和知识。以粗糙集理论和模糊集理论为基础的信息处理技术得到广泛的应用,将两者有机地结合,能够增强它们在智能信息处理中的能力。文档的信息检索过程实际上涉及文档集的表示、用户查询的表示、相似性匹配及其排序三部分,本文基于粗糙集、模糊集理论给出了一种信息检索模型。利用模糊集理论中的模糊集合间中的包含关系——包含度定理,利用其中的“包含”关系体现了文档集和用户查询之间的匹配,并用其包含度实现检索结果文档集的排序。利用粗糙集里面的等价关系体现了关键词之间的关系,从而实现了同义词的检索。比较分析传统的信息检索模型,该模型解决了布尔模型中匹配严格的缺点,以及向量模型中忽略了关键词之间的相互联系的缺点。与传统粗糙集模型相比,该模型能够对文档集的权重进行表示,并且通过用户查询式,用户可以给出每个关键词的兴趣度。本文的主要工作包括以下几个方面:(1)分析几种传统信息检索模型,即布尔模型、向量模型、概率模型,研究其优缺点。(2)介绍粗糙集、模糊集相关知识,将模糊集里的包含度定理引入信息检索,构成一种基于模糊集的信息检索模型,有效地克服了布尔模型匹配过于严格的缺点,以及只能用布尔量表示关键词的缺点。(3)在基于模糊集的信息检索方法中没考虑标引词之间联系的缺点上,提出了本文的基于粗糙模糊集的检索方法。本文利用粗糙模糊集理论中的上近似、同义等价关系,对用户查询和文档集进行了同义扩充,即根据同义信息,对用户查询和文档集进行了扩充,从而为提高检索查全率提供了基础。(4)在上述思想的基础上,通过实验来进行模拟匹配,并分析比较了基于模糊集方法和基于粗糙模糊集方法,从而体现了基于粗糙模糊集方法的优点所在。但是由于本文中的实验只是进行了模拟匹配,所以还有许多需要改善的地方。如,怎样将其进一步在实际情况中应用和推广,将是下一步工作的研究重点。
其他文献
在现代市场经济中,公司的财务欺祚行为可谓层出不穷,对证券市场产生了巨大的冲击,引发了前所未有的信用危机。因此,对财务欺诈进行识别就显得尤为重要。利用数据挖掘中的分类技术,对公司财务数据进行分析、计算、处理,从数据中挖掘出蕴含其中的信息和规则,帮助投资者和会计师轻松应对各种复杂财务数据行为,具有较高的学术价值和广泛的应用前景。目前,面向财务欺诈识别的分类技术研究刚刚起步,现有分类方法直接应用于财务欺
随着社会信息化的迅速发展,信息资源数量的骤然增长、信息资源的异构性和动态性使得充分有效的使用这些浩海如烟的信息资源变得越来越困难,这时如果想要充分的利用这些网络资
虚拟植物(Virtual Plant)是指利用虚拟现实技术在计算机上模拟植物在三维空间中的生长发育过程,它是以植物个体或群体为对象,生成具有三维效果和可视化功能的计算机模型。它
模式匹配是计算机研究领域中一个重要的研究方向。随着互联网的普及和发展,模式匹配技术广泛应用于网络安全、搜索引擎以及生物计算等领域中。本文总结了当前模式匹配算法的
针对强化学习任务中存在的“维数灾”(即状态空间的大小随着特征数量的增加而发生指数级的增长)及收敛速度慢两个普遍且严重的问题,本文分别从奖赏函数、分层强化学习和函数
智能规划是人工智能领域一个非常活跃的研究分支。近十几年中,智能规划发展非常迅速,在规划问题的描述和问题求解两方面研究都取得了新的突破,但在求解大规模规划问题以及规划搜
计算机数值模拟逐渐成为解决现代工程和科学分析问题的重要途径,数值模拟能为理论提供测试和检验,有助于对复杂物理问题的认识,还能帮助我们解释和发现新现象,例如有限差分法(FDM)
随着网络多媒体技术的飞速发展,人们对网络性能、服务内容和安全性的期望不断提高。但是“尽力而为”服务仍是目前Internet中主要的一种服务类别,所有分组在网络中被同等对待,缺
随着汽车技术的快速发展和自动化程度的不断提高,微特电机不仅在汽车上所占的比重越来越大,而且所充当的角色也越来越重要。电机工作时在空载、负载和堵转三种状况下的各种参
随着计算机技术和互联网的飞速发展,包括数字图像在内的各种多媒体数据的数量正在以惊人的速度增长,面对海量的多媒体信息,如何有效的管理、组织和利用有用的信息是一个关键