论文部分内容阅读
随着信息时代的发展,各种形式的数据呈现飞速的增长态势,对数据进行快速准确的分类是目前数据挖掘和机器学习领域研究的重点。按对数据进行描述使用的标签个数可将数据分为单标签数据和多标签数据两种。由于多标签数据的特征与标签彼此之间的关联性使得多标签数据比单标签数据的分类问题更为复杂,所以对多标签分类相关问题的研究成为新的研究热点。本文主要对多标签分类中的特征选择方法和分类算法进行了研究。针对多标签数据特征的稀疏性和高维性,提出了一种基于文化基因算法的多标签特征选择方法MA-MLFS,实现特征的降维,本文主要研究了文化基因算法中的局部搜索策略。在局部搜索过程中,每次迭代都选择种群中适应度最优的一条染色体,根据特征与标签集之间的相关性强弱选择相应的特征对该染色体进行局部“加”和“减”操作,在新生成的染色体中选择适应度最强且优于原染色体的个体将原染色体替换,从而找出局部最优解,优化种群。该方法有效地避免了遗传算法容易陷入局部最优解的问题。由于多标签数据中的每个标签具有各自独有的特性,设计了一种基于标签特性的多标签分类算法LC-KNN。该算法采用k-means聚类算法对训练集中每个标签的正负样本集合进行聚类,找出相同个数的聚类中心,将预测样本是否包含某个标签的问题转化为二分类问题,将该标签的正负聚类中心作为训练集,采用KNN分类算法进行分类。在计算待预测样本与正样本间的距离时进行加权处理,使得待预测样本与正负样本之间的距离分布更明显,最后将每个标签的分类结果进行组合,得到待预测样本所属的标签集。该算法充分利用了标签具备的特性,有效地避免了标签分布不均衡对分类效果造成的影响。采用ML-KNN多标签分类算法对MA-MLFS和其它两种多标签特征选择方法GA和FSIG进行验证,从分类的平均精度对比可知MA-MLFS方法比其它两种方法在不同的数据集上高出的范围大约在2%5%之间,验证了MA-MLFS方法是有效的。然后采用LC-KNN算法对用MA-MLFS特征选择后的不同数据集进行分类,与ML-KNN算法的分类结果进行对比,LC-KNN算法的平均分类精度提高约为2%,说明该算法是可行有效的。