【摘 要】
:
随着计算机技术的发展,信息规模与日俱增,信息的组织形式也变得越来越复杂。人类正面临着“被信息所淹没,但却饥渴于知识”的信息过载困境。因此,数据挖掘,作为一种从海量信
论文部分内容阅读
随着计算机技术的发展,信息规模与日俱增,信息的组织形式也变得越来越复杂。人类正面临着“被信息所淹没,但却饥渴于知识”的信息过载困境。因此,数据挖掘,作为一种从海量信息中发掘知识的技术,变得越来越重要,越来越多的研究人员投入其中。在众多数据挖掘技术中,分类是一个重要的基础技术,具有非常广泛的研究和应用价值。本文针对数据分类任务进行算法研究和实现,并开发了一个通用的数据分类系统。为此,本文完成了如下的工作:其一、在决策树、K-近邻、朴素贝叶斯以及前馈神经网络四个基础分类模型之上,基于投票策略,实现了一个集成分类模型。本文在多个数据集上进行了一系列对比实验,结果表明,所实现的集成模型比四个单独的模型都具有更好的分类性能。其二、实现了一个包括四种常用分类算法以及集成分类算法在内的数据分类系统。系统具有数据预处理、数据分类、分类效果评价、结果可视化显示四项功能。其中,数据预处理主要包括缺失值的填充、光滑噪声数据及属性规范化;分类效果评价主要采取交叉验证的方式;结果可视化显示使得用户愿意进行主动探索,在探索过程中有可能发现意外的知识。软件测试结果表明,系统具有良好的可靠性,可以满足对大部分结构化数据的分类需求。
其他文献
<正>"职转居"现象应该引起足够的重视,尤其是已经实施统筹城乡的地区,如不尽快解决,将直接影响职工医保参保的稳定性,甚至危及到基金安全。以宁夏(2011年已将城居医保和新农
江津老白干酒是重庆市著名的白酒产品,1961年江津白酒正式注册为"几江牌"江津老白干,并沿用至今。连续8年被重庆市政府评为"重庆工业五十强",对于保护重庆江津老白干的品牌,
系统存在安全隐患,管理、使用不规范以及资料的网络共享等给电子病历中患者隐私权保护带来了新的难题。严格电子病历形成、存储、利用的技术规范,减少程序漏洞和安全隐患,提
推荐系统作为解决信息过载的主要手段,通常通过挖掘用户的历史行为来对用户未来的行为进行预测,它的本质是将用户和项目联系起来,将用户可能感兴趣的项目推荐给他。传统的推
随着我国宏观经济的快速发展,居民的收入水平和消费能力也不断提高,商业银行个人消费信贷业务也随之蓬勃发展起来。但在我国个人消费信贷市场不断扩张的同时,个人消费信贷存
目的比较国内外医疗安全管理现状,分析差异,找出问题,提出建议。方法:文献研究法,即分析以"医疗安全"为关键词在中国期刊全文数据库中搜索到的相关文献,同时查找相关书籍和互
人口红利作为重要的经济增长推动力量,为我国改革开放以后经济的快速发展做出了重要贡献。我国老年人口比重在2001年就已经达到了人口老龄化指标7%的临界值,进入21世纪后该指标
层次分析模糊评判法能较好地将定性指标定量化,而汽车产业集群竞争力评价的绝大部分指标都是难以量化和模糊的,因此,运用层次分析模糊评判法可以构建较合适的区域汽车产业集
文章探讨祁县方言人称代词的形态变化。祁县方言人称代词有多样化的单数和复数形式,并且表述意义也多样化。祁县方言人称代词也有格变化。
很多消费者都有购买品牌产品的意愿,但是有限的购买能力促使许多消费者只能购买仿冒品.虽然仿冒品可以满足消费者的需求,但是仿冒品会给使用者带来一定的负面影响.利用消费者