多关系关联规则挖掘研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:zhanagyuxing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。对于多关系的数据挖掘研究,如何高效地挖掘以及如何提高算法的可扩展性,一直是大家研究的重点。与传统的数据挖掘算法相比,多关系数据挖掘特有的复杂性对算法的性能提出了更高的要求。多关系数据挖掘算法的搜索空间变得更大、更复杂。目前多关系数据挖掘主要集中在两个方面进行研究,其一是基于ILP理论的技术,是以逻辑原子的方式表达项集,通过Prolog查询来计算项集的支持度,借鉴典型的单表关联规则挖掘算法,通过分层迭代的方法发现存在于多表的关联规则。这种方法在实现挖掘多表关联规则的同时可以避免统计偏斜问题的发生,另一种方法是基于非ILP技术的多关系关联规则挖掘算法,这种方法主要致力于挖掘解决算法存在的性能问题。针对以上问题,本文主要做了以下工作:首先,本文对数据挖掘理论、数据挖掘中关联规则算法进行了总结,重点研究了多关系数据挖掘中的关联规则算法。介绍了目前主流的多关系挖掘技术,基于ILP技术的多关系关联规则挖掘的经典算法以及非ILP技术中解决多关系表连接问题的元组ID传播理论。其次,本文将FP-Growth算法引入到多关系挖掘中,提出了多关系FP-Growth算法,详细给出了多关系挖掘中如何构建FP树以及如何寻找树中的频繁项集,并用一个具体的示例展示了算法。最后对于基于非ILP技术算法存在的统计偏斜问题提出了进一步优化。最后,本文通过PKDD会议给出的数据集,对算法进行了实验验证并与其他算法进行了对比,并对实验结果进行了分析。
其他文献
云计算是近年来的热门话题,兴起了IT产业对服务使用方式的变革,越来越多的组织和个人使用云计算来部署自己的应用,开发自己的平台。云计算厂商的将更多的时间放在了虚拟化、
随着大数据时代的来临,各行各业的数据量都在极速增长。医疗大数据作为最有价值的行业大数据之一,近年来人们对它的研究层出不穷。其中对于医疗质量评价的方法,研究者多数采
随着计算机信息技术的不断发展,计算机信息系统已经在各行各业中发挥着重要的作用。企业的不断发展壮大使得企业原有的管理模式已经不能适应企业的发展和运营,企业将面临一系
多Agent理论及相关技术为分布式系统的研究提供了一个崭新的途径。多Agent系统理论是分布式人工智能体系的一个分支,目前多Agent技术已经成为了当今人工智能领域研究的热点之
复杂植被场景作为室外场景的重要组成元素,在三维虚拟场景的绘制中往往占据着用户绝大部分的视野,其真实感和交互性将直接决定着用户对场景的认知。然而,复杂植被场景的构成
随着互联网技术和计算机技术的不断发展普及,网络越来越成为人们获取知识和交流信息的主要平台,在教育领域也不例外。目前网络中存在着大量的学习资源,这些资源分散于网络中,
随着Internet的快速发展与普及,计算机软件面临的环境开始从静态封闭逐步走向动态、开放和多变。为了适应这种发展趋势,网构软件(Internetware)成为一种新的软件形态,能感知外部
随着第三方物流产业的蓬勃发展,从事第三方物流企业的市场竞争尤其激烈,企业要想在市场中生存并发展,提供高效、快捷、方便的物流服务至关重要。物流信息化能够帮助企业提高
人工免疫系统的研究旨在抽取生物免疫系统中独特的信息处理机制,研究和设计相应的模型和算法,进而解决各种复杂问题。人工免疫是继人工神经网络、进化计算之后新的智能计算研
无线传感器网络是一种全新的信息获取平台,具有快速展开、适应性强等特点,有着广阔的应用前景。基于无线传感器网络节点数量众多、密集分布、节点读数相关性高且能量受限等因