面向缺失数据处理的SVM算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:jianfei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据分析和数据挖掘领域,经常会出现数据缺失问题,其中特征缺失是缺失数据问题的一个重要分支。医疗、社会调查等领域的数据由于自身的特性,特征缺失数据的比例往往很高。这些数据虽然含有缺失,但依然蕴藏着很多有价值的信息,如何解决特征缺失数据的问题并从中提取信息成为近年来研究的热点。目前解决特征缺失问题最常用的方法是填补法,是指在预处理阶段用特定的值来填充缺失的特征值。然而这种方法只有在处理缺失比例较低的数据时效果较好,并且只适用于处理符合完全随机缺失(MCAR,Missing Completely at Random)或随机缺失(MAR,Missing at Random)机制的数据。实际上,产生缺失问题的原因多种多样,几乎不存在完全随机缺失这种理想状态。针对不同领域的问题,如果不考虑缺失数据出现的原因和数据本身的特点,统一按照填补方法进行处理,只会扭曲数据原本的分布甚至产生误导的结果。本文主要研究医疗数据和社会调查数据中出现的特征缺失问题。在深入分析此类特征缺失的原因后,根据这些数据的特点,提出了一种基于缺失数据距离度量的支持向量机算法。这个方法的主要创新之处在于定义了一种新的可以处理缺失数据和完整数据的核函数,为了避免填补引入的误差,该核函数最大限度的利用已观测到的数据来获取更多信息,通过样本与其它样本之间的距离重新表示该样本,而不是直接计算缺失数据的值。我们在5个UCI数据集上对提出的方法进行验证,对比了均值填补法、EM填补法、回归填补法、KNN填补法、WKNN填补法等传统的填补方法,根据准确率、F值、Kappa统计量及召回率等指标衡量分类器的性能。实验结果表明,我们的方法相对于其他填补方法来说,分类性能得到了显著的提高。即使在缺失数据比例较高的情况下依然可以获得不错的分类效果。我们又在此算法的基础上进行了改进,在计算距离的过程中使用利用完整数据降低之前算法的极端性,实验结果表明,在连续型数据集上改进算法可以取得更好的效果。
其他文献
大夏河是黄河上游地区的一级支流,发源于青藏高原东北边缘,流经临夏盆地注入黄河,地处青藏高原和黄土高原结合部,自然环境具有典型的过渡性,生态环境脆弱。流域内多民族聚居,
随着计算机硬件和软件水平的发展,利用计算机提高人们生活水平是一个广泛存在的需求。利用机器学习和数据挖掘技术从用户日常行为信息中得到用户行为习惯,以此控制日常家用电
当代世界发展的一个典型特征是世界特别是欧洲一体化进程的加剧。欧盟与乌克兰建立友好伙伴关系的问题非常紧迫。欧盟是现代地缘政治领域的积极参与者。欧洲一体化进程的发展
蛋白质的功能和它在生物体内的位点存在着紧密关联,新翻译的蛋白质只有被运送到恰当的生物体亚细胞位点上才能发挥其作用,否则将会出现诸如癌症、与遗传相关等难以根治的疾病
游泳项目是奥运的金牌大户,对于国家的“奥运计划”具有举足轻重的作用。随着科学技术的发展,训练理论和方法已经相当成熟,而今的研究重点则是运动员的心理调控,通过有效的心
CYP51是甾体生物合成中重要P450酶,也是抗真菌药物的重要靶点,还是治疗人类锥虫病的靶点。通过生物信息学筛选和分析,发现在少孢节丛孢(Arthrobotrys oligosproa)的基因组中
人类为了认识自然并遵循其发展规律运用于自然,需要不断地对自然界的各种现象进行测量和研究。由于实验方法和实验设备的不完善,以及受到人们认识能力所限和周维环境等因素的
目的:探索诱导骨髓基质干细胞(bone marrow stromal cells,BMSCs)分化为肝细胞的最适条件,并研究NF-κB和Ubc9在肝样定向分化中的表达,为BMSCs定向分化的分子生物学机制提供
视频传感器是一种广泛应用于各类突发公共事件感知的重要传感器,对保障社会安全、维护社会稳定起到突出作用。近年来,随着我国“平安城市”等工程的深入开展,全国各城市均加
燃料乙醇是目前公认的,也是最有发展前景的一种可再生清洁能源。以木质纤维素类生物质为原料生产燃料乙醇,不仅能够降低燃料乙醇在生产原料方面的成本,同时也在环境保护、废