标签加权的多标签特征选择算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:wangpeng532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当下,人们生活中的衣食住行都向着智能的方向改进,而这一切都离不开对数据信息的挖掘。智能的生活方式产生了海量数据,数据挖掘就是从大量数据中发现其中潜在信息的过程。在数据挖掘领域中,高维数据导致的维度灾难和数据过拟合是困扰研究人员的两大问题。特征选择是一个重要的数据预处理步骤,通过从候选特征集中挑选出重要的特征组成新特征子集,利用该子集进行模型训练等学习任务。进行特征选择可以有效地克服维度灾难问题,缓解过拟合。现有的大多数多标签研究都囿于一种固定思维而只考虑每个标签对特征选择模型的影响是相同的,然而每个标签的丰富信息如果加以利用是可以提高特征选择模型的性能。本文通过标签加权充分利用隐含的标签信息提出了两种新的特征选择方法,主要研究工作如下:(1)提出了一种模糊边界域加权标签的多标签特征选择算法。首先,本文引入模糊粗糙集来用于多标签特征选择,将模糊边界域的概念作为评价标签重要性和特征重要度的准则,通过标签的重要性发掘标签信息进一步助力特征选择。然后,本文设计了一种动态地标签加权启发式算法来挑选特征。最后,实验表明该算法在多标签数据集上挑选的特征子集有着较优的分类性能。(2)提出了一种互信息加权标签的多标签I-Relief算法。首先,本文引入I-Relief处理多标签特征选择问题,以最大化样本的区分能力为目的迭代更新特征权重,然后,在迭代过程中加入标签权重强化特征对样本的区分。最后,本文设计了一种权重迭代更新算法来求解优化问题,并用实验验证所有算法的有效性。
其他文献
计算机断层成像(Computed Tomography,CT)作为辅助医生诊断的一项技术被广泛应用于医疗实践中,但是在其扫描过程中过高剂量的辐射会对患者的身体造成严重的伤害,增加患癌的风险。低剂量CT可以通过降低辐射剂量或者减少投影个数来实现。然而,每个角度下低剂量辐射所获取的投影噪声较大,致使重建出来的图像包含较大噪声,影响后续诊断。高精度低剂量CT重建的一种有效途径是除去低质量图像中存在的噪声
特征选择方法是指从数据的初始特征集中,根据一定的方法选择出符合某种标准的特征子集的方法。作为一种常见的数据预处理方法,特征选择是数据降维中一种重要的手段,在机器学习中数据降维处理发挥着重要的作用,其可以有效过滤数据中噪声,提升后续机器学习的效率。对于空间数据而言,传统的特征选择方法没有考虑到空间数据点之间的空间位置关系。通常空间数据都有着特定的空间分布特征,空间自相关性和空间异质性导致空间对象存在
不平衡数据广泛存在于医疗、经济等领域。随着社会的发展和进步,特别是进入大数据时代,越来越多的数据是高维且不平衡的,这对机器学习和数据挖掘而言是巨大的挑战。分类是计算机领域的研究热点,在处理这些高维不平衡数据时,决策树、随机森林、支持向量机等传统分类算法的分类准确率不能很好地满足人们的需求。本文以不平衡数据集为研究对象,运用不同的特征选择算法进行分析,并在此基础上进行分类,旨在兼顾少数类和整体的准确
在当今全球信息化的大背景下,信息安全问题愈来愈成为一个全球性问题,信息的安全性和保密性在信息化时代越来越引起人们的高度重视。传统的身份验证很容易导致个人信息的丢失,且易被盗取。相比于现应用的生物特征,指静脉在手指皮肤之下,不易被盗取,且指静脉因具有活体性等优势成为生物识别技术的重要研究方向。深度学习由于具有强大的特征表达能力被逐渐应用于生物特征识别领域,因此基于深度学习的指静脉识别成为当下最具研究
在医学实践和临床医疗中,无论是临床医学诊断还是病理研究,都需要通过各种成像技术来获得生物体的器官、组织乃至细胞和亚细胞结构的形态学和功能学信息。光声成像作为一种新兴的成像技术结合了纯光学成像的高选择特性和纯超声成像的高穿透特性,具有高对比度、高分辨率和深成像深度的特点。光声成像的成像深度和成像分辨率与所采用的光声传感器密切相关。传统的超声波探测器是使用压电材料制成的,它的局限性是对电磁干扰的敏感性
目的探讨脑卒中患者专科康复后离院时日常生活活动能力(ADL)情况及其相关影响因素。方法以2019年6月至2020年12月海安市某医院康复科收治的脑卒中患者为研究对象,于患者专科康复后离院时对ADL状况进行评估,并采用单、多因素方法对ADL影响因素进行分析。结果 523例脑卒中患者专科康复后的ADL评分为(62.23±18.27)分,其中ADL评分(<60分)较差的脑卒中患者比例为28.49%。多因
阿尔茨海默病(Alzheimer’s disease,AD)是老年人群体中最常见的痴呆类型.因它在发病初期症状极不明显,一经确诊便达到错过最佳干预期的中后期,会严重威胁到受害人及其家属的身心健康,给他们的生活带来了巨大的负担.由于它的病因涉及多个方面,所以到目前为止没有绝对的治疗办法.因此,要对老年人进行初期筛查.为了解决社区大样本条件下AD筛查医护人员不足时对结构能力测评存在的困难,本文从临床上
中国是世界上老龄化较严重的国家之一,脑小血管病是临床常见的在老年人群中易发的脑部血管病,其临床表现多样,可表现为认知功能下降、痴呆、步态异常、情感障碍等.如不对其干预,任其发展下去,极易引发语言功能、认知功能等多种脑功能障碍,导致患者精神恍惚及生活自理能力下降,不仅使患者感到痛苦,对社会对家庭都是一种负担.脑小血管病初期通常症状不明显,容易被患者及其家属忽略而错过早期识别、及时治疗的最佳时期.脑小
分类是数据挖掘领域中一个重要的分支,普通的分类模型通常假设数据集中各类别的样本数量差距很小且对于每个类别的误分代价相等,而使用不平衡数据集训练传统的分类器会导致模型对于少数类的预测精度很低,因此不平衡数据的分类问题一直是机器学习领域的研究热点。本文针对面向不平衡数据的分类方法开展研究,引入了基于样本权值的欠采样方法,样本局部密度计算方法以及样本误分代价计算方法,提出了三种面向不平衡数据的AdaBo
机器学习通过学习样本数据、进行模型拟合或者预测推理等方法,使其在数据集中自动获取相应的理论,从而形成一种与常规方法互补且具备可行性的算法,其主要适用于缺乏一般性理论及规模较大的数据集中。物理学可以用来探究物质运动的规律,随着物理学研究的不断发展与进步,机器学习算法也成为了研究物理学问题的热门算法。该学科虽与机器学习处于两个不同专业领域,但其在处理问题的思想上存在诸多共通之处。因此,可通过机器学习来