【摘 要】
:
多标记学习已逐渐成为机器学习、大数据和数据挖掘等智能领域的研究热点之一。在多标记学习中,通常样本的特征数量越多,样本实例也就被描述的越准确。随着特征数量的不断增加,它的相关冗余特征也将不断增多。由于这些特征数量的存在会严重影响到分类器的精度,甚至会造成误分,因此需要对特征数量进行降维。特征选择是一种有效的降维方法,它可以先从中选择出相关性高且冗余性小的特征作为特征子集,再对其进行分类训练与预测。在
论文部分内容阅读
多标记学习已逐渐成为机器学习、大数据和数据挖掘等智能领域的研究热点之一。在多标记学习中,通常样本的特征数量越多,样本实例也就被描述的越准确。随着特征数量的不断增加,它的相关冗余特征也将不断增多。由于这些特征数量的存在会严重影响到分类器的精度,甚至会造成误分,因此需要对特征数量进行降维。特征选择是一种有效的降维方法,它可以先从中选择出相关性高且冗余性小的特征作为特征子集,再对其进行分类训练与预测。在一个样本实例中,是否有标记与样本实例的特征属性有着密切的联系。同时由于标记的不平衡性在智能领域中广泛存在,它会让不同标记对样本实例的描述程度存在一定的差异性。目前,有关不平衡数据的研究较为匮乏。传统的处理方法一般是先通过抽样或者重采样的方式将不平衡数据处理成为平衡数据,再对其进行研究。但是这种处理方法常会改变原有数据集的属性和丢失部分信息,致使分类器的精度有所下降。现有的研究多数是针对单标记下的不平衡性,而对多标记下的不平衡性却鲜有研究。基于多标记下的不平衡性存在的问题,本文提出了两种改进算法,主要研究工作如下:(1)目前多数特征选择算法并未考虑不同标记对样本的描述程度可能存在一定的差异性。针对这一问题,提出了一种不平衡标记差异性多标记特征选择算法(Multi-label Feature Selection Algorithm with Imbalance Label Otherness,MSIO),首先将不同标记下正负标记的频率分布作为该标记的权值并加入到特征选择的过程中,然后修正传统的信息熵计算方法,最后得到一组更为高效的特征序列。在多个多标记基准数据集上进行了充分验证,所得实验结果和统计假设检验说明该算法是行之有效的。(2)现有特征选择算法大多是基于标记分布大致平衡这一假设而提出,其中少有考虑标记分布不平衡的问题。针对这一问题,提出了一种边缘标记弱化的多标记特征选择算法(Multi-label Feature Selection Algorithm with Weakening Marginal Labels,WML),首先计算不同标记下正负标记的频数比值作为该标记的权值,然后通过赋权方式弱化边缘标记。在进行特征选择的过程中加入标记空间的相关信息,得到一组更为高效的特征序列,这提升了标记对样本描述的精准性。通过对实验所得结果进行分析,本文所提算法具有一定优势。同时稳定性分析和统计假设检验更进一步证明了算法的有效性。本文提出的MSIO算法和WML算法将不同标记所包含的信息加入到分类过程中,不仅保留了特征空间的原始属性,又提高了分类器的精度。在多组基准数据集上的实验结果表明,本文所提算法较其他对比的多标记学习算法有一定的优势。通过稳定性分析和统计假设检验进一步证明了本文算法的有效性和合理性。
其他文献
由于现代科技的高速发展,能源和环境的问题日益突出,这就要求电池的性能有进一步提高。锂离子电池有着工作电压高、能量密度大、循环寿命长、自放电小、无记忆效应以及绿色环
智能手机已经成为重要的情报源,每天都产生、存储、传播大量的图像、音视频等信息。智能手机获取、存储、编辑、传播音视频文件的便利性不断提高,既满足了人们日常的需要,也使得犯罪分子得以利用手机进行不法音视频(包含恐怖主义、色情、虐待等)的拍摄、编辑和传播。公安机关在侦破案件时需要借助图像成像设备源鉴别技术,从而对图像来源予以确定,以厘清侦查思路,确定侦破方向。当前大部分图像成像设备源鉴别技术是基于光照响
随着信息技术的不断发展和基础设施的不断完善,大数据技术已广泛应用于各个行业,比如医疗、教育、餐饮、物流、汽车、金融和娱乐等行业,给人们的生活带来诸多便利。在大学,随着管理手段信息化的不断深入,产生了大量的数据,其中,大学生日常生活和学习行为所累积的数据引起了高校管理人员的高度重视,也成为广大研究者的研究对象。通过对这些数据进行处理和分析,则可以获得学生的行为特征和规律,为学生管理者更好地管理学生提
目的:研究丙泊酚复合七氟烷麻醉与丙泊酚静脉麻醉对妇科肿瘤手术患者内隐记忆、外显记忆以及应激反应的影响。方法:选择2018年8月至2019年5月山西医科大学第二临床医院妇科肿
随着经济的持续高速发展,儿童的生活品质也愈加收到重视,受到当下多样的营销模式与文化浪潮潜移默化地影响。在体验经济的潮流下,儿童用品专卖店应当如何通过打造更加舒适的
三农问题一直以来都是社会经济发展过程中党和国家关注的重点内容。2017年10月,中共十九大作出实施“乡村振兴”发展战略的重要指示,并提出“产业兴旺、生态宜居、乡风文明、
苹果是世界上产量最多的水果之一,营养价值极高,富含丰富的矿物质和维生素。但是由于病原菌的侵染,导致苹果在采后贮藏、运输的过程中腐烂损失严重,降低其商业价值,造成了严
协商民主这一学术上的思想理论首先起源于西方,但是社会主义协商民主却是中国共产党和中国人民在实践上首先开创的。社会主义协商民主是在中国传统文化的土壤中发芽生长的,是中国特色民主实践中的伟大创造,它以人民政协为载体,广汇民意、广集民智,使马克思主义政党发扬社会民主,完善和传承党的群众路线。本文从协商民主与人民政协的内涵界定和内在关系分析切入,以协商民主为视域,将人民政协作为研究对象,通过理论与实践、历
反腐倡廉教育是党风廉政建设和反腐败斗争的基础工作,反腐倡廉教育的科学化也是践行科学发展观的有力举措。国有企业的腐败行为有着自身的特点,因此探索国有企业中反腐倡廉教
时代的快速发展与变化,使得传统学习和思维方式需要进行新的调整与变革。批判性思维作为21世纪公民必备的核心技能,对个人、国家和社会的发展具有重要意义。将批判性思维融合到现有课程的教学过程中已成为发展趋势。近几年来,批判性思维培养与具体学科结合的研究越来越多,但在信息技术领域内却屈指可数,需要展开相关的理论研究和实践探索。基于此,通过梳理国内外批判性思维的相关研究,系统整理出批判性思维的理论体系与教学