论文部分内容阅读
多标签分类广泛应用于图像分类、信息处理、故障诊断、基因功能预测等领域。若样本的标签间符合预先定义的层级结构关系,则多标签分类问题变为更加复杂的层级多标签分类问题。有向无环图中的每个节点可以有多个父节点,针对树形图设计的相关算法并不适用。现有研究主要针对树形图,对求解有向无环图层级多标签分类问题的数学模型等理论分析工作研究不足。此外,层级结构的存在所导致的不平衡数据集问题会影响分类的效果。在当前研究中,针对有向无环图设计的算法较少、精度较低,无法满足应用需求。层级多标签分类问题的一个重要应用领域为基因功能预测领域,由于在该领域被广泛应用的Gene Ontology(GO)注释方案为有向无环图结构,基于此方案的基因功能预测问题可以转化为有向无环图层级多标签分类问题。因此,对有向无环图层级多标签分类问题进行研究,在提升分类问题的理论研究水平、加速基因功能验证和注释工作等方面都有重要意义,并且对解决其他领域的相关问题也有借鉴意义。本文的主要研究工作如下:首先,针对当前研究对有向无环图层级多标签分类问题的理论分析工作较少,对求解该问题的数学模型研究不足这一问题,本文基于贝叶斯决策理论,构建了一种求解有向无环图层级多标签分类问题的数学模型。为了构建这一数学模型,首先设计一个新的损失函数——DAGH损失函数,该损失函数将有向无环图层级结构的信息加以考虑,对层级多标签分类问题中父子节点可能发生的不同预测错误的情况进行区别对待。而后,本文利用DAGH损失函数给出了求解层级多标签分类问题的条件风险,并利用基于最小风险原则的贝叶斯决策原理,将求解层级多标签分类问题转化为条件风险最小化问题。最后,本文将优化问题进行进一步的数学推导和化简,构建了求解层级多标签分类问题的数学模型,并且给出了层级多标签分类问题的具体求解过程和主要步骤。本文提出的数学模型将复杂的有向无环图层级多标签分类问题转化为一组二元分类问题进行处理,可以为设计有向无环图层级多标签分类算法、求解有向无环图层级多标签分类问题提供理论基础。其次,针对在层级多标签分类问题中存在数据集不平衡问题,并且层级越深入,不平衡数据集问题越明显这一具体情况,提出了在利用本文所提出的数学模型对层级多标签分类问题进行求解时,有向无环图中各节点训练集的生成方法。在针对一个节点生成训练集时,首先采用改进的兄弟节点策略选择正负样本,生成原始训练集;该策略在构建训练集时考虑了层级结构的相关信息,可以在一定程度上缓解不平衡数据集现象。而后利用提出的基于聚类的混合采样方法——CHS方法对原始训练集进行处理,使之变成平衡的训练集。本文提出的方法可以在各节点生成平衡的训练集,可以有效缓解不平衡数据集问题对分类结果的影响。第三,针对当前适用于有向无环图结构层级多标签分类问题的算法较少、精度较低、无法满足应用需求的问题,基于本文构建的求解层级多标签分类问题的数学模型,提出了一种用于有向无环图结构的层级多标签分类算法——HMC-DAG算法。该算法采用本文所提出的训练集生成方法来构建各节点的训练集,可以有效地在数据层面缓解不平衡数据集问题。HMC-DAG算法对其使用的二元分类器没有特别要求,可以根据需求灵活地选择二元分类器,有效利用机器学习领域关于分类研究的最新成果。本文给出了选用支持向量机以及多层神经网络作为基础分类器的两种HMC-DAG算法实现方式,分别为HMC-DAG-SVM算法和HMC-DAG-MLP算法。在求解本文所提数学模型所描述的优化问题时,HMC-DAG算法中设计并添加了DAGLabel贪婪算法,DAGLabel贪婪算法可以在保证算法的分类结果满足层级约束要求的前提下,求得最优的分类结果。实验结果表明,本文提出的算法可以有效求解有向无环图层级多标签分类问题,与同类算法相比具有一定的精度优势。