关联规则及相关数据挖掘技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:assasad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从海量数据库中发现人们感兴趣的、隐藏的、前所未知的知识。它涉及数据库、人工智能、机器学习、模式识别、知识工程、面向对象、信息检索和可视化等一系列技术。经过十多年的发展,它已成为关系数据库中最有前景的研究和应用领域之一。关联规则是数据挖掘的重要模式之一,它的研究有着极其重要的理论与实际意义。 Apriori算法是挖掘布尔关联规则的经典算法,而该算法在空间和时间复杂度上有着难以克服的局限性,存在多次扫描数据库和产生大量候选集的性能瓶颈。本文提出了一种基于链表变换的算法,详细地描述了链表的构造、插入和变换操作及由这些操作产生频繁集的整个过程。该算法只需扫描两次数据库就可发现所有频繁集,且不需产生大量的候选集,另外因完成链表变换的基本操作已有高级语言函数库的良好支持,故算法具有很高的效率。实验表明,所提新算法在一定数据集范围内相对于Apriori算法具有优越性。 由频繁集生成用户感兴趣的且具有价值的规则,是关联规则算法研究的重要内容。基于支持度和置信度的框架模型有可能生成支持度和置信度都很高,但却是用户不感兴趣的规则。本文在分析经典兴趣度模型的基础上,提出了一种新的兴趣度模型来消除虚假规则的误导。实验表明新的兴趣度模型与经典兴趣度模型具有一致的结果,但相对于经典兴趣度模型具有更好的粒度,更有利于挖掘否定项的关联规则。 本文研究了关联规则生成过程中可能出现的规则组合指数爆炸的问题,通过在支持度和置信度框架中引入兴趣度改进函数来使问题得以解决。本文最后根据简单匹配的思想,定义了两个规则的距离,从而实现了用聚类算法对生成的规则做整理,使用户得到更清晰的信息。
其他文献
本文以主题搜索引擎和元搜索引擎技术为背景,研究了基于Web的主题信息采集系统(聚焦爬行系统)的几个问题:首先,研究了Web主题词典的建立问题,提出一种自动动态建立Web主题词
容侵技术是力图大型网络服务器在受到攻击后,能继续提供服务(或提供降级服务)的一项网络安全技术。本文介绍了基于状态转换的容侵系统模型,同时根据现在网络攻击的类型,构造出了
智能交通系统是未来交通的发展方向,而基于视频图像处理的检测和跟踪技术是其关键技术之一。本文从事车辆视频检测与跟踪系统的算法研究,其目的是适用于大面积、多目标的复杂场
考虑到在一个复杂的通信网络中,多种不同设备的互操作性,我们必须对网络中的每一个组成部件,根据它们的规范进行一致性测试。随着通信协议的复杂性不断的增长,根据协议规范对协议
随着互联网技术的发展与成熟,电子商务越来越得到普及,诸如旅游之类的许多传统行业纷纷拥抱电子商务。面向服务架构和云计算的快速发展,为用户带来了越来越丰富的服务。面对
在以查询计划为执行模型的数据流持续性查询处理中,大多数的自适应方法假设查询是预先确定的,因此可以进行全局性的查询计划优化。与预定义查询不同的是,在实际应用场景中需要对
  随着互联网的日益发展及人民生活水平的逐步提高,人们接触视频信息的机会越来越多。如何对数量巨大的视频数据进行高效管理,以便能快速准确地获取用户所需视频,成为当前信息
Internet的迅速发展,促使网络日趋复杂、规模不断扩大,人们对复杂、异构网络的管理要求也越来越高。当前大多数网络管理系统都是基于SNMP协议的集中管理模式,此类系统实现起来比
本课题目标是完成一套基于Windows操作系统的支持隧道代理的主动防御型防火墙的应用代理和内容过滤软件的设计与实现,为在内部网的主机提供安全保护.首先,论文陈述了防火墙的
随着网络应用的不断普及,认证技术作为分布式系统和CS方式系统的首要安全技术得到了迅速的发展。从目前的应用来看,一次性口令(One-timepassword,简称OTP)认证系统和基于证书的