【摘 要】
:
数据挖掘就是在给定数据中发现数据之间的联系的过程。目前,人们对数据挖掘方面的研究主要集中在聚类、知识分析、决策支持等方面。分类算法是数据挖掘核心技术之一,是当前数据
论文部分内容阅读
数据挖掘就是在给定数据中发现数据之间的联系的过程。目前,人们对数据挖掘方面的研究主要集中在聚类、知识分析、决策支持等方面。分类算法是数据挖掘核心技术之一,是当前数据挖掘领域的一个研究热点。同时,粗糙集作为一种研究数据表达归纳的重要方法,在数据挖掘、知识发现方面有着不可替代的作用。传统的基于区分价值的算法需要对全部候选测试属性的取值进行比较,决策树规模较大,分类精度不是很高。为了获得更好的分类效果,降低决策树的规模,提高分类精度,本文对基于区分价值的属性选择判据的决策树算法进行了如下改进:首先,将粗糙集技术和决策树理论结合起来,针对于传统的基于区分价值的决策树算法必须依次比较对象的区分价值,从而导致时间开销过大的问题,提出了改进算法一。该算法定义了“FI”和“SI”两个参数,减少对象之间的比较次数,有效提升了时间性能,最终达到了缩小决策树规模的目的。其次,为了进一步降低决策树的规模,改进单变量决策树没有充分考虑属性间的相互关联的不足,引入了基于区分价值的多变量改进算法二,该算法选择“FI”里面参数I(a)(某属性值上取值不同的个数)取值最大和次大的属性作为多变量检测属性;若属性集中“FI”为空,将“SI”中的属性按区分价值排序,对属性进行分类,进一步改进决策树算法。最后,在UCI数据库的三个数据集上比较了基于ID3算法、建立在区分价值基础之上的单变量的决策树算法(改进算法一)和建立在区分价值基础之上的多变量决策树(改进算法二)三者的效果。通过实验我们发现,改进算法一在维持生成决策树时间开销基本不变的同时,分类的准确性有所提高,但是,所生成的决策树规模有进一步优化的空间。改进算法二能够构造一棵结构更为简单的决策树,分类的准确性进一步提高。
其他文献
<正>保育猪是指断奶2~3个月的猪。由于较弱的抵抗力和免疫能力,保育猪的死亡率比较高。所以,掌握保育猪的养殖技术至关重要。一、保育猪养殖存在的问题及对策1.腹泻严重。保育
伴随着社会的不断进步,我国市场经济的不断发展,人们对医疗服务需求不断提高。但是,近年来,公立医院公益性淡化、社会效益降低、公平性下降等问题出现,导致人民群众没有得到广泛的
高速公路是国家社会经济系统中交通基础设施的重要组成,高速公路的发展状况体现了一个国家或地区的交通发达程度、经济发展水平。近些年,国民经济的增长推动了交通基础设施建
村官职务犯罪是新农村建设中最大的“绊脚石”,因为村官的身份和管理事务的复杂性,检察机关在查处村官职务犯罪面临不少棘手的法律问题:97年刑法没有将村官纳入职务犯罪的主体
为了提高供应链的整体运作绩效,在我国现阶段碳交易市场机制不完善的情况下,建立了碳排放约束下的供应链交易模型,研究了供应链企业间剩余碳排放配额共享机制,并将共享机制下
税务行政复议前置程序,是指纳税人与税务机关发生纳税争议时,必须先申请行政复议,只有在对复议结果不服时才能提起行政诉讼。这种制度有助于税务机关及时纠错、保障纳税人的
评价系统是J.R. Martin基于韩礼德的系统功能语法对于人际功能进行的重新阐释。它的解释力在不同领域已得到验证,包括叙述话语、媒体话语、学术书评等。评价系统分为态度、介
近年来,世界各地火灾事件频频发生,造成的人身伤害极大,引起了人们的广泛关注,从而阻燃技术成为了研究热点。纺织品对于人们的日常生活无处不在,因此对纤维材料的阻燃功能提
道德态度将伦理学与心理学在道德的层面结合起来,利用道德个体的心理基础与特点来探索现实生活中道德领域的认知与行为的关系,成为道德领域知行合一的纽带。我们要寻找的是一
在刑事诉讼中,辩护权对于被追诉人的重要性是不言而喻的。如果没有有效的行使辩护权,那么面对强大的国家公权力机关的控诉,犯罪嫌疑人、被告人几乎不可能与之抗衡。虽然,刑事被追