基于粗糙集理论的数据挖掘算法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:wjt197703
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和信息技术的不断进步,数据挖掘引起了人们的广泛关注,传统的信息处理技术越来越不能很好地满足实际应用的需要。因此,人们迫切需要具有更高效率和更强能力的信息处理技术。Pawlak提出的粗糙集理论是一种全新的处理模糊性、不确定性问题的数学工具,它无需提供数据集合之外的任何先验信息,而是利用集合上的等价关系对知识的不确定程度进行度量,这使得粗糙集理论在数据挖掘中具有更加明显的优越性。将粗糙集理论应用到数据挖掘中,需要经过数据预处理、求核属性、属性约简、规则生成等几个步骤。本文以粗糙集理论在数据挖掘过程中的步骤为线索,主要对连续属性离散化、求取决策表的核值属性、决策表的属性约简等问题进行了深入的研究。本文的主要创新工作包括:提出一种基于粗糙集理论和OPTICS算法相结合的连续属性离散化算法。运用粗糙集理论处理决策表时,要求决策表中的值用离散数据表示。因此,在深入分析和研究几种离散化算法优缺点的基础上,提出一种基于粗糙集理论和OPTICS算法相结合的连续属性离散化算法。该算法是以粗糙集理论中的依赖度作为评价机制,更好的保持了条件属性和决策属性的不可分辨关系,该算法也是一种全局的离散化算法,离散化后的信息系统更具有整体性。通过实验验证,该算法能够得到理想的离散化结果。提出一种改进的基于属性重要性的启发式约简算法。通过研究发现,基于属性重要性和基于信息熵作为启发信息的属性约简算法都是不完备的。综合考虑这两种启发信息,以粗糙集理论为依据,以属性重要性为主要标准,信息熵为辅助标准,提出一种改进的基于属性重要性的启发式约简算法。通过实验验证,该算法是个更加完备、更加合理的算法。
其他文献
心脏是人体最重要的器官之一,作为心脏病的多发部位——心室,其生理病理特征的研究具有重要意义。心室中重要的传导系统,包括左、右希氏束支和浦肯野纤维,统称为浦肯野系统。受现
新浪微博目前是国内最大的微博服务平台,微博流中包含着数量众多的,各个领域的新闻事件。目前新浪上有各种各样的带标签的话题事件,已有很多的研究针对于微博上的话题检测,但
签名鉴别是一种,新兴的基于生物特征的身份识别技术,由于其方便、可靠、从笔迹中提取信息不侵犯隐私而被人们普遍接受,在商务、金融、司法、保险等众多领域中有着广泛的应用,
模式分类问题广泛存在于故障诊断、语音识别、机器视觉、文本检索、图像处理和生物信息学等应用领域。在获取分类任务的相关数据信息以后,模式分类的主要目标是利用模式分类算
乳腺癌是目前世界上发病率和死亡率较高的疾病,严重威胁人类的健康。早期诊断,早期治疗是提高乳腺癌患者生存率的主要手段。目前,乳腺癌诊断的主要方法是通过X光图像、CT、核
随着软件系统应用范围的日趋广泛,我们的日常生活越来越依赖应用软件所提供的服务,目前软件已经应用于航空航天、核电技术、军事、电子机械、金融等许多重要的特殊工程领域,
在信息爆炸的时代,互联网已经成为了信息传播非常重要的载体之一。随着时间的积累,互联网成为了一个庞大而又复杂的信息仓库,简单的浏览、检索已经不能满足人们的需求。人们
随着计算机软硬件水平的不断提高,互联网的迅速普及,多媒体的应用越来越广泛,同时,多媒体音视频的质量也有了大幅度的提高,用户对多媒体处理软件的要求越来越高。本文开发了
随着网络信息量的急剧增长,人们期待通过一种更加简洁的方式获取信息。传统的搜索引擎只能返回一系列的网页,人们期待通过一种更加简洁的方式获取信息,问答系统应运而生。问
学位