一种新加权灰色KNN方法对缺失数据的填补研究

来源 :西华师范大学 | 被引量 : 0次 | 上传用户:ADAM129XU
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在众多不同领域中,数据缺失普遍存在,这可能会影响数据挖掘工作的进展,甚至造成不同的结果。因此,缺失数据的填补是训练数据存在缺失时,各种分类问题中常见的应用。其中较广泛的填补方法是基于K近邻算法(KNN)。经典KNN算法使用欧式距离作为度量方式,选用近邻的相关属性值填补缺失值。度量方式针对数值型数据填补情况较优,但这在异构数据中并不适用。在分类问题中,大量缺失数据填补工作都未考虑到类标签的问题,忽视了属性之间的依懒性。对于上述两个方面,本文都分别进行了研究,提出了新的加权方式和异构数据中类标签的存在问题。主要工作内容如下:(1)针对非随机性缺失财务数据(数值型)的填补,基于经典k近邻算法,采用三阶明考夫斯基距离,根据K近邻法则找出与缺失数据同类的相似样本(即K个近邻),看作一个新的训练数据集;然后提出一种优化权重的K-近邻算法(OKNN算法),改进原本的均值赋值法,而对上述新的训练数据集给予各个指标组合权重系数值;最后根据优化的权重系数对提出的新算法进行实例验证,结果证实提出的OKNN组合填补方法优于经典的KNN算法和加权的KNN算法距离填补法。(2)大多数情况下运用欧式距离度量样本相似度会导致忽略样本属性的重要性,而将属性的真实差异视为相同的。所以在数据集密度相关不明显时,度量相似性效果较好,这也是密度相关性敏感的不足之处。在文章的第三章会详细介绍,当密度相关明显时,选用马氏距离度量更有优势,并且欧式距离也是它的一种特殊情况,这样的选取是有一定的合理性。在混合数据中,数据的预处理以及度量样本相似性的方法选取明显更复杂。此前,已有学者证明灰色关联分析更适和度量异构数据集中的两个样本之间的相似性,在这基础上,用灰色距离替代欧氏距离并建立灰色KNN填补模型,其性能优于经典KNN填补效果。还需要考虑属性的重要性,不同属性的影响以及相关程度的不同。通过属性重要度对灰色距离进行加权,提出来了一种基于缺失数据与所有训练数据之间的加权灰色的迭代KNN赋值方法,更精准地选出相似样本,保证训练数据的赋值是针对提高填补性能。最后在UCI数据集中选取适量数据进行实例验证,该加权灰色迭代KNN与其他KNN类似算法相比,在填补缺失数据问题上表现出较好的性能。
其他文献
吲哚3位螺环骨架是许多天然产物、生物活性分子以及药物的结构核心。其合成方法大多需要多步反应,过程复杂且产率低,发展一种过程简单,产率高的合成方法越来越重要。本文发展了钯催化乙烯基氮环丙烷与磺酰基吲哚原位生成α,β-不饱和亚胺的高立体选择性的不对称[3+2]环加成反应。以1,4-二氧六环为溶剂,钯手性双膦配体络合物为催化体系,乙烯基氮杂环丙烷与原位生成的亚胺以最高83%的产率、最高97%ee和13:
随着人类社会经济的发展,一次能源将会消耗殆尽,环境污染会严重危及人类的健康。因此,科学家正探索新技术以替代一次能源。其中,光催化技术是解决这一问题行之有效的方法。石墨相氮化碳(g-C3N4)作为光催化剂在解决水体污染和资源短缺问题上具有一系列优点。但是,体相氮化碳由于比表面积小、活性位点少和光生载流子易复合等问题,影响其光催化活性。本文通过构建异质结制备出高效、稳定的氮化碳基材料,并将其用于环境净
我国地貌类型复杂,影响着人类的生产生活,而地貌分类则对人类建设活动的规模与布局起着重要的作用。目前地貌分类的研究大多基于数字高程模型(Digital Elevation Model,简称DEM)提取其地形指标,通过组合量化,确定其地貌类型。地形特征线直观表达了地形骨架,刻画了地貌形态,如何基于地形特征线进行地貌分类研究值得进一步探索。根据图论的原理,地形特征线可以被视作网络或者图,能否在图或者网络
四川盆地及邻近区域广泛分布第四纪风成沉积物,是研究亚洲季风演变历史及全球变化响应的重要材料。已有的研究侧重风成沉积物的成因、物源及古气候演变历史的重建,鲜有从土壤发生学角度探讨古风成沉积物风化成土指标对当前环境的响应。探究古沉积地层或古土壤的成土特征及其对后期环境的响应有助于进一步理解环境指标的适用性,为更为精确地重建古环境提供科学依据。而且,成都粘土及其下伏褐色粘土和网纹红土的风化成土特征差异及
植被是生态系统不可或缺的重要角色,对植被进行实时监测意义重大。为了快速、大面积监测地球上植被的状况,运用遥感技术反演植被的多项参数,以此了解植被生长、生产等状况的方法被广泛采用。目前,川东北丘陵地区植被各项参数的反演研究较少,采用Sentinel-1/2影像进行相关研究的更少。本文则运用Sentinel-1/2影像、无人机影像等进行川东北丘陵地区植被覆盖度的反演,植被类型识别,以及水稻高度和生物量
黑洞信息丢失疑难和引力本质的问题一直以来都是基础物理学研究中前沿和热点的问题。量子引力唯象模型作为量子引力理论发展过程中的重要部分,为研究量子引力效应对各种尺度范围内的物理系统性质的影响提供了非常有价值的途径。本文将量子引力唯象模型中的标准模型扩展(SME)与黑洞的霍金隧穿辐射研究相结合,研究洛伦兹对称破缺效应对黑洞量子隧穿辐射的影响。本文的研究结果如下:1.基于洛伦兹破缺旋量场理论研究带电Gar
二十世纪初期,广义相对论被爱因斯坦开创性地建立了,在这一理论中,引力场可以通过几何曲率描述,从此人们对于时空的认知有了飞跃性的改变。广义相对论预言了黑洞这一宇宙中最为特殊的天体,黑洞照片证实了黑洞的确存在。随着霍金、贝肯斯坦和彭罗斯等人对黑洞的研究,人们发现黑洞可以用来沟通广义相对论、量子力学和热力学。霍金在考虑到量子效应后,发现黑洞并不是全黑的,而是作为一个黑体发出辐射,并且有它自己的熵。但当前
从米歇尔和拉普拉斯提出存在光无法逃逸的天体以来,黑洞存在的可能性就一直吸引着科学家们前赴后继地进行研究。现代的天文观测表明,在我们的宇宙中,黑洞或具有类似性质的物体不仅存在,而且很可能大量分布在整个宇宙中。有鉴于此,现在对黑洞的研究不仅是被这些独特天体所拥有的迷人的理论未知性所驱动,也是为了能更好地理解我们周围的宇宙。伴随着研究的渐渐深入,越来越多的新理论涌现出来,自贝肯斯坦-霍金熵面世以来,人们
脉冲星的周期很稳定,但实际测量的脉冲到达时间和理论预言普遍存在不规则的偏差,即计时噪声。它反映了未知因素对脉冲到达时间的影响。本文研究了一种可能的力矩微扰引起的计时噪声,即对于回落盘制动的脉冲星,回落盘的不稳定性引起的脉冲星计时噪声。本文首先回顾了脉冲星的研究历史和基本观测特征,接着介绍了脉冲星计时噪声的数据处理以及自相似回落盘制动脉冲星的相关研究。在文章的第四部分分别研究了回落盘吸积率随机起伏的
两栖动物的减少和灭绝长期以来一直是动物学家关注的问题,当前两栖动物物种和数量在全球范围内快速下降。在全球范围内,几乎有三分之二的两栖动物物种受到灭绝的威胁,在所有脊椎动物类群中最高。越来越多的证据表明,两栖动物的灭绝风险在分类学上是非随机的,并且取决于生物学、环境和人为因素。因此,理解导致物种灭绝的关键因素,这是将未来两栖动物的损失减至最小和最大程度地进行保护的重要前提。本论文主要以3 867个两