多标签分类中关键技术的研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:victorhao84
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的发展,各种形式的数据呈现飞速的增长态势,对数据进行快速准确的分类是目前数据挖掘和机器学习领域研究的重点。按对数据进行描述使用的标签个数可将数据分为单标签数据和多标签数据两种。由于多标签数据的特征与标签彼此之间的关联性使得多标签数据比单标签数据的分类问题更为复杂,所以对多标签分类相关问题的研究成为新的研究热点。本文主要对多标签分类中的特征选择方法和分类算法进行了研究。针对多标签数据特征的稀疏性和高维性,提出了一种基于文化基因算法的多标签特征选择方法MA-MLFS,实现特征的降维,本文主要研究了文化基因算法中的局部搜索策略。在局部搜索过程中,每次迭代都选择种群中适应度最优的一条染色体,根据特征与标签集之间的相关性强弱选择相应的特征对该染色体进行局部“加”和“减”操作,在新生成的染色体中选择适应度最强且优于原染色体的个体将原染色体替换,从而找出局部最优解,优化种群。该方法有效地避免了遗传算法容易陷入局部最优解的问题。由于多标签数据中的每个标签具有各自独有的特性,设计了一种基于标签特性的多标签分类算法LC-KNN。该算法采用k-means聚类算法对训练集中每个标签的正负样本集合进行聚类,找出相同个数的聚类中心,将预测样本是否包含某个标签的问题转化为二分类问题,将该标签的正负聚类中心作为训练集,采用KNN分类算法进行分类。在计算待预测样本与正样本间的距离时进行加权处理,使得待预测样本与正负样本之间的距离分布更明显,最后将每个标签的分类结果进行组合,得到待预测样本所属的标签集。该算法充分利用了标签具备的特性,有效地避免了标签分布不均衡对分类效果造成的影响。采用ML-KNN多标签分类算法对MA-MLFS和其它两种多标签特征选择方法GA和FSIG进行验证,从分类的平均精度对比可知MA-MLFS方法比其它两种方法在不同的数据集上高出的范围大约在2%5%之间,验证了MA-MLFS方法是有效的。然后采用LC-KNN算法对用MA-MLFS特征选择后的不同数据集进行分类,与ML-KNN算法的分类结果进行对比,LC-KNN算法的平均分类精度提高约为2%,说明该算法是可行有效的。
其他文献
随着移动通信技术和移动业务种类的迅速发展,用户迫切希望一些互联网上的业务能够在手机中得到应用。即时通讯就是对用户具有强大吸引力的移动网络服务之一。J2ME作为SUN公司
学位
文本分类是文本挖掘中的一个热门研究领域。分类的流程包含关键的几个环节,每个环节处理的合适与否都对文本分类的结果有一定的影响,其中文本特征降维是分类过程中最重要的环
随着多Agent系统技术的日益成熟,基于多Agent的工作流已成为工作流技术发展的主流方向之一。目前的研究主要集中在基于多Agent的工作流建模,但是在实际应用中,存在着这样一类问
当前流行的企业资源管理系统中,ERP(Enterprise Resource Plan)已经成为企业先进管理思想的体现,但是成功引进ERP软件受诸多因素的影响,其中软件设计起决定性的作用。本论文
近年来,超分辨率已成为图像处理领域中的研究热点。所谓图像超分辨率处理就是从一序列降质的低分辨率图像中获取高分辨率的图像。超分辨率技术已经广泛应用在卫星遥感、军事
本文应用粗糙集的理论和方法从矿井评价指标决策表中提取相应的规则,并应用于对瓦斯突出矿井的等级评价体系中。该研究可以丰富评价瓦斯突出矿井等级的手段。   本文首先
学位
随着现代化的推进,计算机软件已广泛应用于航天航空、武器装备、交通等安全攸关的系统中。由于在安全攸关实时系统中一个微小的逻辑错误都有可能导致不可预见的灾难性后果,所
微波辐射热效应目前在医学界得到广泛应用。其中包括利用微波热效应体外净化自体外周血干细胞来治疗白血病。微波辐射净化法以安全、使用简便、价格低廉等特点引起人们的广泛
随着信息技术和科技手段不断地进步发展,科学文献以电子档形式出现的需求越来越多,关于实现科学文献电子化的方法得到更加广泛的关注和深入的研究。数学公式是许多科学和科技
随着移动互联网时代的到来,图像在移动设备上的传输变得越来越频繁,图像的安全己成为人们关心的主要问题。图像加密技术是确保图像安全的有效手段,基于智能手机的图像加密特