数据挖掘中特征选择与聚类算法研究

被引量 : 0次 | 上传用户:oldearth
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据获取技术精度的不断提高,产生的数据的维数越来越多,其中包含一些噪音和无关的信息,简单统计学方法已经不能满足人们对于知识发现的需要。面对这种“数据极其丰富而信息相对缺乏”的情况,数据挖掘技术逐渐显现出的它的优越性,成为一种强有力的分析手段和有效的分析工具。特征选择与聚类是数据挖掘中两个主要的研究领域。特征选择的目的在于从海量数据中提取出有用信息,从而提高数据的使用效率;聚类则可以在无人工因素的干扰下给出原始数据整体评价。近几年来,基于遗传算法的特征选择方法以及近邻传播(affinity propagation,简称AP)的聚类算法受到了大家的广泛关注。本文首先在多种群代理遗传算法的基础上,通过改变编码方式并且与融合思想结合提出了一种新的基于遗传算法的特征选择方法。该方法在保持原有算法优点的基础上,有效的避免了原始算法得到的特征结果中包含特征数目过多的缺点,通过特征选择频数得到了特征的重要性排序,利于挑选重要特征进行分析。受多种群代理遗传算法的启发,提出了一种链状多种群遗传算法,该方法通过构造一种新的种群结构和改进选择策略提高种群的多样性。其次在聚类的研究中,本文提出了一种基于近邻传播的特征加权聚类方法,通过特征的加权,从而综合考虑了不同特征在聚类中的不同作用,使得聚类结果较传统方法更能反映出数据的信息。通过对采用代谢组学方法得到的肝病数据进行特征选择,基于短编码的多种群代理遗传算法与链状多种群遗传算法可以有效的避免结果中包含的特征数目过多缺点,同时提高了分类的准确率。在聚类研究中,通过对UCI中数据集进行测试,与原始的近邻传播算法相比,基于近邻传播的特征加权聚类算法可以不同程度的提高聚类的准确率。
其他文献
大规模定制能够以大规模生产的高效率和低成本,提供满足顾客个性化需求的产品和服务,因此,大规模定制成为越来越多企业竞相选用的竞争战略。而面临多变的动态竞争环境,企业要
2012年3月,考古工作者对巴中市境内的古米仓道开展了一次多学科综合考察。为深化此次考察成果,同年5月再次对南江县的太子洞遗址进行复查。遗址现存洞穴遗址、摩崖石刻、石碣
随着建筑市场的不断开放,EPC项目承包管理模式在实际工程中越来越多,EPC项目的设计是关系到业主投资效益的关键,也是承包商项目运行成功与否的关键,因此设计管理工作在EPC项
触变性丝网印刷油墨的推出,提高了商业陶瓷装饰制品的印刷速度和丝网印刷精度,同时也减少了废品。在市场竞争中,油墨制造商通过开发触变性网印油墨(这种油墨既是热塑性的,又可进行
本文详细介绍了国外特别是美苏武装直升机的发展与装备概况;剖析了武装直升机在未来战争中的地位和作用;阐明了其战术使用原则和行动方法及生存能力:评论了步兵反武装直升机
本文以战略经济学家罗姆·麦卡锡4P行销组合策略理论为基础,针对中国软件市场的现状和特点对国内软件市场营销策略进行了全面的研究,对软件市场上的战略管理进行了详细的阐述
《可感染人类的高致病性病原微生物菌(毒)种或样本运输管理规定》已于2005年11月24日经卫生部部务会议讨论通过,现予以发布,自2006年2月1日起施行。
分工决定权力的产生:在人类社会的原初状态,作为个体的人需具备两种能力:从事生产的能力和从事维护的能力。权利就是两种能力的结果与体现。维护的能力又由专门维护力和基本
戊戌变法失败后,康有为总结其惨痛教训,撰述大量政论文章,继续探索中国政治改革方案。1902年康有为作《公民自治篇》,通过比较中西各国政治制度之异同,主张中国建立公民制度,
在《指南》中表明幼儿科学教育要从目标定位、内容选择、方法途径等方面去探讨,通过创设合理有效的教育环境和各种活动,激发幼儿对科学的兴趣,使幼儿在探索活动中,学习解决问