基于关联规则的离群挖掘的研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户：liguiming321

【摘要】

：

数据采集和存储技术的进步使得人们拥有数据的能力急剧提高，并且已有数据还在不断呈指数级的速度增长。隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的描述以及

【作者】

：

张璐璐

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2007年期

【关键词】

：

关联规则挖掘频繁项集兴趣度离群数据离群数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据采集和存储技术的进步使得人们拥有数据的能力急剧提高，并且已有数据还在不断呈指数级的速度增长。隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的描述以及对其将来发展趋势的预测，这些信息在决策制定的过程中具有极其重要的参考价值。数据挖掘技术是对数据进行微观、中观乃至宏观的统计、分析、综合和推理，以指导实际问题的求解；发现事件间的相互关联，甚至利用已有的数据对未来的活动进行预测。离群数据挖掘是数据挖掘的一个新兴课题，在实际生活中有着广泛的应用。对离群数据的发现分析，往往可以使人们发现一些真实的、但又出乎意料的知识。目前，离群数据挖掘正逐渐成为数据库、机器学习、统计学等领域研究人员的研究热点。关联挖掘作为数据挖掘的一个重要研究分支，其主要研究目的就是从大型数据集中发现隐藏的、有趣的、属性间的规律，即关联规则。由于形式简单、易于理解，且是从大型数据库中提取知识的主要手段，因此，关联规则挖掘的研究和应用已经得到了数据库、人工智能及统计学等领域里学者的极大关注，并取得了不少的研究成果。传统的关联挖掘算法大多是基于Apriori算法，该类算法在挖掘密集数据库时遇到了很大的困难。Apriori算法是一个逐层迭代和候选产生-检测算法。算法扫描数据库次数与最大频繁项集的长度相等，随着数据库规模增大，最大频繁项集长度增加，算法扫描数据库耗时将大大增加；大量候选项集的产生将占用大量CPU计算时间。此外，大量中间结果的产生，也使内存瓶颈问题非常突出。为了解决密集数据库上关联挖掘困难的问题，论文在第二章介绍了一种基于Apriori算法的改进算法。新算法针对Apriori算法不足之处作如下改进：引入兴趣度以消除不需被重视的规则，从而解决了规则没有价值，甚至错误的问题；在数据结构中包含信息的标识符链表Tid_list，并对1-频繁项集L₁作幂集运算，以达到扫描原数据库仅需一次的目的从而极大的提高了挖掘的效率。关联规则挖掘的目标是找出满足最小支持度、最小信任度的属性值及属性值组合，而离群数据挖掘的目标是搜索小于某一阈值(即最大离群支持度^max_sup)的数据项集。本文针对数据挖掘中的离群挖掘，将基于关联规则的挖掘思想应用其中，形成基于关联规则的离群数据挖掘。文中将改进的Apriori算法应用到离群数据挖掘中，实验结果说明了此方法的高效性并且具有高效性和实用性。离群数据挖掘系统是离群数据挖掘理论与实际应用之间的一个桥梁，其在离群数据挖掘研究中扮演着重要的角色。本文在前文对关联规则挖掘方法在离群数据挖掘中应用研究的基础上，提出了一个包含关联规则挖掘算法的离群数据挖掘系统的框架，并对其中的关键技术做了详细的分析。

其他文献

IBE中的匿名私钥分发研究

随着电子商务和电子政务的普及和应用，用户对信息传输和使用时的安全性需求也越来越高。作为对传统的基于PKI的加密方案的改进，基于身份的加密方案(Identity Based Encryption，I

学位

私钥分发匿名性盲签名加密方案

基于改进L-系统的植物形态可视化研究

随着虚拟现实技术和计算机图形学的发展，利用计算机对自然界中植物的模拟，已经成为一个热门课题。本文结合浙江省基金项目，探讨了植物形态可视化建模中的问题。研究的内容和取得

学位

虚拟植物L-系统子结构植物结构模型

基于域数据模型的DSQL的设计与实现

随着数据库应用的日益广泛和专用数据模型的不断发展,出现了专门应用于企业MIS开发的数据模型——域数据模型。然而目前还没有专门用于域数据模型的域数据库查询语言。本文在

学位

域数据模型DSQL查询语言词法分析语法分析

基于INTERNET的网络身份信息整合管理方法的研究

目前，关于网络身份的问题日益突出，需要一个网络身份管理系统来解决。身份管理包含广泛的含义，对于企业来说，问题在于整合内部不同系统。对于互联网用户来说，他们需要毫不费力的管

学位

信息整合信息管理用户界面用户管理身份信息

数学规划在企业生产管理中的应用

基于燕京啤酒(桂林漓泉)股份有限公司的现状，建立四种实用模型对其进行研究。模型一：燕京啤酒(桂林漓泉)股份有限公司现有四条主要生产啤酒线，可以在高低负荷下进行生产，高负

学位

数学规划动态规划最小二乘法层次分析生产管理企业管理

基于Agent的移动接入认证技术研究

随着计算机和通信技术的发展以及移动设备的普及，原来单一、繁琐的有线电缆和网线接入已经无法满足人们对网络接入方式的需要，无线网络已成为人们生活的一部分，人们对移动办公的

学位

网线接入无线网络安全隐患接入认证NS仿真

基于交互神经网络的新型密码协议研究与设计

密码技术和安全协议是保障通信安全的核心。随着分布式计算的飞速发展及新型高性能计算技术的出现，各种密码破解方法和安全协议攻击算法不断涌现，传统密码技术和安全协议正不断

学位

密码学神经网络互学习TPM

校园网屏幕广播教学系统的设计与实现

近年来,随着计算机应用技术的迅速发展与普遍应用,以网络和多媒体技术为基础的网络教育逐渐改变着传统的教育模式。网络教育技术使得教育资源得到共享和优化,它扩大了教师的

学位

网络教学屏幕广播视频会议应用层组播

旋转、平移和缩放不变的网格参数化

三角形网格曲面参数化可以看作是该网格曲面和参数域之间的一个——映射。近年来，网格参数化的研究已经取得了一定的进展，出现了很多参数化方法。网格参数化的理想目标是参数域

学位

缩放不变性网格参数化纹理映射计算机图形学

基于构造性覆盖算法的中文文本分类

文本分类是文本挖掘的基础与核心，是近年来数据挖掘和网络挖掘的一个研究热点，在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位。文本自动分类技术

学位

神经网络交叉覆盖算法文本分类特征选择主成分分析

基于关联规则的离群挖掘的研究

其他学术论文