基于属性间相关性分析的属性选择方法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:rgypf1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一门从大量的日常业务数据中提取隐含的同时又是有用的信息的新兴技术.数据挖掘算法对其处理的数据集合一般都有一定要求,比如数据完整性好、数据冗余性少、属性之间相关性小等.然而,日常业务数据一般都可能具有不完整性、冗余性和模糊性等特点.因此,应用数据挖掘算法之前一般需要对原始数据进行预处理.属性选择是一种重要的数据预处理方法,可以降低数据集的维度和噪音,使数据挖掘算法效果更好.本文首先介绍了属性选择的相关技术及本文所涉及的信息论的基本概念,随后详细分析了属性选择包中算法的静态组织结构和动态运行过程,然后介绍了已有相关性评价方法,着重叙述了新的属性间冗余性的分析和最大关联-最小冗余的评价标准.最后本文设计了两个基于属性间相关性分析的属性选择算法.一个是消除属性间冗余性的算法,它利用决策独立相关性和决策依赖相关性来分别度量属性与类属性之间关联性和属性与属性之间冗余性.另一个是排序法与打包法相结合的算法,它是一个两阶段方法,首先排序法利用最大关联-最小冗余标准选择一些较好的属性子集,然后打包法利用交叉验证选择最佳属性子集.利用NaiveBaves分类算法和C4.5决策树算法评价属性选择的结果,实验表明,在大多数的数据集合上,这两个算法能够显著地约减属性并保持分类精度基本不变.
其他文献
随着信息技术的快速发展,管理者在进行决策分析和制定时不能单纯依靠以往的经验,必须借助必要的数据来进行科学的管理。这导致管理人员进行决策分析时对数据的依赖性更加强烈
随着网络的快速发展和网络上各种信息的激增,为了获得理想的有价值的信息,检索技术受到人们越来越广泛的关注。信息检索系统作为网络的一个重要组成部分,在满足用户信息需要
随着我国经济的发展,城市的规模正在逐渐扩大,机动车的数量也迅速增长。在这繁荣景象的背后,有着各种各样的问题。交通堵塞,尾气污染正在严重影响着城市居民的日常生活,每年
在智能监控领域,复杂背景下的人体跟踪是一项具有挑战性的工作。各种不利因素,如杂乱的背景、光照的改变以及遮挡,都极大影响人体跟踪的准确性和鲁棒性。本文提出在跟踪过程
信息化时代,企业的信息管理程度不断深入,水平也日益提高,这大大冲击了传统的制造业,让传统的制造业摒弃了许多以前陈旧的管理理念。此外,通过信息化技术降低了企业的运作成
随着科技的迅猛发展,数字化时代的迈进,混合式学习越来越受到教育界和工业界的瞩目。交互式电子白板凭借其丰富的学习资源,方便快捷的操作步骤,多姿多彩的教学方式和安全环保
互联网的快速发展,尤其是Web 2.0的兴起,为人们提供了丰富大量的信息资源,人们在畅游信息海洋的同时,“信息过载”给人们带来的困惑也越来越多。面对大量的信息,人们往往无从
本文对全景图像拼接过程进行了阐述。结合全景同步拍摄装置的特点,本文采用摄像机标定的方式来消除镜头畸变,完成图像预处理工作。在图像拼接过程中本文采用改进的模板匹配算
军事仿真技术作为一门实用性学科,凭借其独有的风险低、效果好、投入少、可重复等优点,已经受到普遍关注,得到广泛应用。为了辅助新型武器研制,评估决策效果,缩减军费开支,人们开发
学位
计算机网络尤其是Internet的发展奠定了新经济时代的信息基础。计算机网络已经改变了人们工作和生活的方式。在日益成熟的网络及通信技术的支持下,计算机网络迅速发展,网络规