基于粗集理论的数据预处理及应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:woshi52031
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的成熟,数据应用的普及,以及互联网的高速发展,人类积累的数据量正在以指数级速度迅速增长。传统的数据分析和查询方法已不能满足人们对隐藏在数据背后的知识的迫切需要,在这种社会需求的强劲推动下,知识发现和数据挖掘应运而生,而粗集理论作为一门新的数学工具,凭借它不需要附加任何外界信息或先验知识这一特点,突破了其它数据分析工具的局限,避免了人的主观因素对数据挖掘结果的影响,逐渐成为了研究知识发现的重要的数学工具之一。 由于数据预处理是KDD处理步骤中非常重要的一环,其结果将直接影响到KDD的效率、准确度以及最终模式的有效性。而经典的粗集理论不能处理原始数据资料中的遗漏信息以及值域为实数的数据,需要经过数据预处理,包括数据补齐和离散化处理后才能进行知识获取,因此如何有效地进行数据预处理具有非常重要的现实意义。 本文围绕基于粗集的数据预处理中数据补齐和连续属性离散化展开讨论。首先分析了当前主要的数据补齐算法的特点和不足,指出了数据补齐的原则和目标,并针对已有的基于粗集不完备信息系统补齐算法ROUSTIDA的缺陷,提出了基于量化相似关系模型和基于受限相似关系模型的数据补齐算法,以使更多的缺损数据得到科学的填补,尽量避免因采用其它方法可能导致的决策规则矛盾的问题。为了提高粗集模型抗噪音干扰的能力,又提出了基于变精度粗集模型的数据补齐算法,以使模型在数据存在噪音干扰的情况下,仍然能获得好的机器学习效果。 然后,对目前流行的离散化算法进行了详细的分析和评价,指出了离散化的方向和目标,并提出了基于粗糙信息熵的离散化算法,以便在保证划分后决策表相容性的前提下,获得比较合理的划分点。 最后,提出了电子商务的潜在客户挖掘系统,并将前面提出的基于粗集的算法理论应用到该系统中,同时和其他几种现有的数据补齐和离散化算法进行了实验比较和结果分析。并指出本文创新之处以及存在的问题和努力的方向。
其他文献
自上世纪七十年代以来,自助服务在国际上迅速发展起来而成为一个新兴的产业.它改变了传统的交易模式,以交互的方式让客户自主的获取所需的服务,让客户更自由的参与到交易或交
在互联网时代,信息爆炸式增长,海量数据不断产生,从而导致用户难以迅速找到自己所需要的信息等困难。因此,迫切需要一种新的数据获取方式。概念格,作为一种新颖的数据挖掘工
工作流技术是发展企业信息系统的核心技术之一。企业业务流程中体现出来的事务特性,对传统事务理论提出了新的挑战。这些事务具有生命周期长、结构复杂、需要分布式支持等特征
目前对包括树木在内的植物形态模拟主要采取分形的方法,虽然能够较好的表现树木的结构复杂性,但对其形态特征的表达不够准确,真实感效果不够理想。本文从植物生态学角度出发,根据
本文研究的对象是上海贝尔阿尔卡特有限公司的SDH产品1642EM的产业化测试;研究的目标是实现该产品的自动化测试,从而满足批量生产的要求。本文从批量生产过程中对产业化测试的
网络在生活和商业中的应用越来越频繁和重要,但也招致了越来越严重的网络入侵。(分布式)拒绝服务攻击主要用于恶意消耗目标网络或主机的系统资源,由于其操作简单、效果显著但
随着通信技术以及Internet网络语音实时传输技术的迅速发展,对语音的传输速率和存储容量都提出了很高的要求,解决这些问题的主要途径之一就是语音编码。 在现有的语音编码研
在普通贝叶斯网络(Bayesian Network)上的推理问题是一个NP问题[2],多连通的贝叶斯网络推理更是困难。现有的推理算法,其计算精度及计算速度往往达不到实际应用的要求,本文分
在煤矿安全监测系统中,风速、风量是重要的检测参数之一。国家煤矿安全监察局明确提出,我国煤矿开采要依据“先抽后采,监测监控,以风定产”的原则。因此,及时准确地掌握井下风速、
随着Internet的普及,网络应用尤其是电子商务和电子政务开始成为重要的网上活动,网络安全因其在网络应用中的重要性,日益成为一个不容忽视的问题。人们需要在网络中为用户提供身