高维不完整数据的特征选择研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:mingliqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习中,人们经常需要处理含有大量特征同时包含很多实例的高维数据集。对于这类数据集,存在冗余甚至干扰特征。因此,特征选择成为了机器学习中的一个研究热点,其可以选择出规模更小,表达效果更好的特征子集,既降低了机器学习算法的计算代价,又可以提高学习算法的准确率。此外,数据采集过程中的各种因素,诸如探测仪器的限制、样本破损、环境的干扰,使得采集的数据存在缺失,导致实际应用中不完整数据的大量存在。高维不完整数据成为了数据挖掘和机器学习中不可回避的问题。针对现有特征选择算法存在的问题和不足,本文从新的思维角度出发,深入研究了面向高维不完整数据的特征选择算法。首先调研了关于不完整数据处理方式和特征选择算法研究背景和发展现状,对现有的方法进行了总结,指出了存在的问题和不足。针对传统不完整数据的处理通常采用丢弃和填补的方式容易导致严重的数据偏离问题,提出一种直接在不完整数据上进行特征重要度的计算方法。该方法首先将数据矩阵根据完整度划分为3个部分,接着考虑每一个缺失值的可能性,然后采用基于概率分布和基于元组数量的合并方式,有效的完成了不完整特征重要度的计算。其次,针对现有特征选择算法在高维数据上效果不理想,提出了一种基于随机矩阵的高维数据特征选择方法。其通过将相关矩阵中符合随机矩阵预测的奇异值去除,从而得到改进后的相关矩阵和选择特征的数量,接着对改进后的相关矩阵进行奇异值分解,通过分解矩阵获得特征与类的相关性,根据特征与类的相关性和特征之间冗余性完成特征选择。此外,还提出一种特征选择优化方法,通过依次将每一个特征设为随机变量,比较其奇异值向量与原始奇异值向量的差异来进一步优化结果。最后,为了验证本文所提出方法对高维不完整数据特征选择中的有效性,本文通过在多个高维不完整数据集上进行分类实验,以分类准确率、特征选择数量和缺失率为评价指标验证了本文所提出的方法对高维不完整数据的特征选择问题上是有效的。
其他文献
言据性是指说话者基于信息来源进行话语构建的语言范畴。说话人在选择信息源的语言表达方式时,既传递了信息的来源,也暗含了他/她对于信息的态度。现有文献已经对言据性的许
惩罚是小学教育中常用的一种教育手段,是一柄双刃剑,如果运用得当,能够辅助教师管理好班级,如果运用不当,将会影响教育效果。小学阶段是教育的重要阶段,教师的教育方法直接影
<正>食品标签是向消费者传递产品信息的载体,也是消费者了解产品信息的最直接有效的途径。然而,近年来因食品标签不明确导致的食品安全问题层出不穷,消费者对产品标签上标注
目的:检测合肥地区成人急性上呼吸道感染(acute upper respiratory tractinfection,AURI)患者血清中Flu A、Flu B、RSV、ADV和PIV-Ⅰ、Ⅱ、Ⅲ病毒特异性IgM抗体,并进行RSV亚
一直以来,高端装备制造业不仅可以带动本地区的经济发展,而且体现了一个国家的科技发展水平。近年来我国城市化进程不断深化,城市轨道交通已经成为未来城市公共交通的主要发
目的探讨慢性阻塞性肺疾病(COPD)患者以脉冲振荡法(IOS)测定呼吸阻抗与常规肺功能检查的关系方法选择51例慢性阻塞性肺疾病患者及12例健康中老年人行常规肺功能检查与IOS测定
马克思世界历史理论中蕴涵着极为丰富的人学思想,马克思站在世界历史的高度,从批判黑格尔等人的“抽象的人”出发,提出了“现实的人”是一切历史的前提与基点,人的解放与自由个性
分子动力学(Molecular Dynamics,MD)是一种新型的模拟大量分子间相互作用的纳米技术,使我们能够在微观尺度下对纳米材料进行更加细微的研究。Nano MD是南京大学赵健伟教授实
目的观察分析中西医结合治疗脾肾阳虚型肝硬化腹水的临床治疗效果。方法选取我院2010年1月至2013年12月收治的80例脾肾阳虚型肝硬化腹水患者,随机分为观察组和对照组,每组患
型钢高强混凝土(Steel Reinforced High-strength Concrete,简称SRHC)组合结构结合了型钢和普通混凝土的性能而越来越受到高层结构设计人员的青睐。型钢高强混凝土具有承载力