【摘 要】
:
随着社会的不断发展,多标签分类逐渐成为人们研究的热点,诸多领域(如图像分类、自动文本分类、生物信息中基因功能分析和多媒体分析等)都涉及到多标签分类问题。目前,已有大
论文部分内容阅读
随着社会的不断发展,多标签分类逐渐成为人们研究的热点,诸多领域(如图像分类、自动文本分类、生物信息中基因功能分析和多媒体分析等)都涉及到多标签分类问题。目前,已有大量关于多标签分类的方法,如BR、BP-MLL、ML-kNN等。这些方法都假定数据之间独立同分布,并未考虑数据的相互关系。然而现实生活中的数据都或多或少存在显性或隐性的联系,将数据的相互关系考虑到多标签分类中,能充分挖掘数据的潜在信息,并提高分类的性能。多标签k近邻ML-kNN方法是一种通过对已分类实例进行学习,来预测待分类实例的标签。然而该方法并没有考虑属性间以及标签间的相互关系,因此,本文将属性的显性或隐性的相互关系以及标签的显性或隐性相互关系考虑到ML-kNN方法中,提出了一种基于耦合相似性的多标签k近邻CSML-kNN方法。针对CSML-kNN方法在大数据背景下不可扩展的问题,本文又通过特征提取和特征选择的方法,对多标签属性进行降维,进而ML-kNN方法来预测待分类实例的标签,提出了基于主成分分析的多标签k近邻分类方法PML-kNN、基于主成分分析的耦合相似性多标签k近邻分类方法PCSML-kNN和基于特征选择的多标签k近邻分类方法RCSML-kNN。最后,根据两个真实的多标签分类数据emotions和yeast,分别采用 ML-kNN、CSML-kNN、PML-kNN、PCSML-kNN 和 RCSML-kNN方法进行实验。实验结果表明将特征选择和耦合关系考虑到多标签k近邻ML-kNN方法中,不仅能提高算法的效率,还能提高分类的准确性。
其他文献
目的:探讨RNA干扰技术沉默STAT3基因对人肺腺癌A549细胞的生长抑制作用。方法:①以STAT3 mRNA全基因序列作为模板,根据siRNA的设计原则,从基因编码区起始密码子下游寻找符合
金属材料作为工农业生产和实际生活中应用最广泛的材料之一,具有无可替代的地位。其中铜及铜合金因其高导热导电性等优点,成为生产生活中消耗量极大的一种金属。然而,由于铜材极易被腐蚀的缺点,会使其机械性能和使用性能受损,这极大地阻碍了铜材的广泛应用。受自然界中超疏水现象的启发,科研人员探索出多种制备人工超疏水表面的方法,以期改善铜材的性能并扩大其应用范围。然而,由于大部分人工超疏水表面稳定性及耐久性较差,
兽疫链球菌是工业上生产透明质酸(Hyaluronic acid,HA)的主要菌株。目前,工业上应用的主要是通过诱变获得的高产菌株,但缺乏遗传稳定性。几株兽疫链球菌全基因组测序的完成,
目的:分析中医天麻钩藤饮对脑血管疾病患者实施治疗的临床治疗效果。方法:228例脑血管疾病患者,随机分为观察组与对照组,每组1/4例。对照组患者接受复方丹参注射液治疗,观察组患者
医疗卫生事业与民生健康息息相关,优质的卫生服务是促进公民健康的有力保障,而卫生人力资源是医疗卫生事业发展的核心,卫生人力资源配置的公平与否直接影响到人们所享有的卫生服务水平高低。目前我国卫生人力资源普遍存在配置不公平现象,主要表现为数量、素质、结构等不公平,以及群众对卫生服务的需求与使用感受不均衡,发达城市对于卫生人力资源的配置尚且无法做到科学,经济社会发展相对落后的南平市的卫生人力资源配置优化进
贝尔格的十二音歌剧《露露》是现代歌剧史上的经典之作,在这部饱受争议的歌剧中有一个具有高尚人格的人物——阿尔瓦,阿尔瓦是贯穿全剧的男性角色,作曲家将他视为自己的化身,为其
为了能够精准可靠地估计太阳能辐照度,本文提出一种基于贝叶斯模型组合的随机森林算法用于太阳能辐照度预测.首先,引入K-means聚类和K折交叉验证将气象数据训练集生成多个训
本文建议在南疆垦区重点建立科技支撑体系 ,并根据价值规律将南疆垦区用水区分为经济用水和生态用水 ,实行不同的用水价格以促进生态农业环境建设
本文笔者的研究对象是康宁1984年创作《新松》中“灰色”的特点、历史坐标及意义。为此,首先要研究康宁的黑白木刻的创作经历、“灰色”在国内黑白木刻创作中的发展历史,最后
水稻是我国的重要的粮食作物之一,我国有一半以上的人口以稻米为食。2015年,全国水稻的种植总面积为45324万亩,水稻产量20822.5万吨,占全国粮食总面积的26.66%,占全国粮食总