基于有向无环图的层级多标签数据分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Evilkonata
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签分类广泛应用于图像分类、信息处理、故障诊断、基因功能预测等领域。若样本的标签间符合预先定义的层级结构关系,则多标签分类问题变为更加复杂的层级多标签分类问题。有向无环图中的每个节点可以有多个父节点,针对树形图设计的相关算法并不适用。现有研究主要针对树形图,对求解有向无环图层级多标签分类问题的数学模型等理论分析工作研究不足。此外,层级结构的存在所导致的不平衡数据集问题会影响分类的效果。在当前研究中,针对有向无环图设计的算法较少、精度较低,无法满足应用需求。层级多标签分类问题的一个重要应用领域为基因功能预测领域,由于在该领域被广泛应用的Gene Ontology(GO)注释方案为有向无环图结构,基于此方案的基因功能预测问题可以转化为有向无环图层级多标签分类问题。因此,对有向无环图层级多标签分类问题进行研究,在提升分类问题的理论研究水平、加速基因功能验证和注释工作等方面都有重要意义,并且对解决其他领域的相关问题也有借鉴意义。本文的主要研究工作如下:首先,针对当前研究对有向无环图层级多标签分类问题的理论分析工作较少,对求解该问题的数学模型研究不足这一问题,本文基于贝叶斯决策理论,构建了一种求解有向无环图层级多标签分类问题的数学模型。为了构建这一数学模型,首先设计一个新的损失函数——DAGH损失函数,该损失函数将有向无环图层级结构的信息加以考虑,对层级多标签分类问题中父子节点可能发生的不同预测错误的情况进行区别对待。而后,本文利用DAGH损失函数给出了求解层级多标签分类问题的条件风险,并利用基于最小风险原则的贝叶斯决策原理,将求解层级多标签分类问题转化为条件风险最小化问题。最后,本文将优化问题进行进一步的数学推导和化简,构建了求解层级多标签分类问题的数学模型,并且给出了层级多标签分类问题的具体求解过程和主要步骤。本文提出的数学模型将复杂的有向无环图层级多标签分类问题转化为一组二元分类问题进行处理,可以为设计有向无环图层级多标签分类算法、求解有向无环图层级多标签分类问题提供理论基础。其次,针对在层级多标签分类问题中存在数据集不平衡问题,并且层级越深入,不平衡数据集问题越明显这一具体情况,提出了在利用本文所提出的数学模型对层级多标签分类问题进行求解时,有向无环图中各节点训练集的生成方法。在针对一个节点生成训练集时,首先采用改进的兄弟节点策略选择正负样本,生成原始训练集;该策略在构建训练集时考虑了层级结构的相关信息,可以在一定程度上缓解不平衡数据集现象。而后利用提出的基于聚类的混合采样方法——CHS方法对原始训练集进行处理,使之变成平衡的训练集。本文提出的方法可以在各节点生成平衡的训练集,可以有效缓解不平衡数据集问题对分类结果的影响。第三,针对当前适用于有向无环图结构层级多标签分类问题的算法较少、精度较低、无法满足应用需求的问题,基于本文构建的求解层级多标签分类问题的数学模型,提出了一种用于有向无环图结构的层级多标签分类算法——HMC-DAG算法。该算法采用本文所提出的训练集生成方法来构建各节点的训练集,可以有效地在数据层面缓解不平衡数据集问题。HMC-DAG算法对其使用的二元分类器没有特别要求,可以根据需求灵活地选择二元分类器,有效利用机器学习领域关于分类研究的最新成果。本文给出了选用支持向量机以及多层神经网络作为基础分类器的两种HMC-DAG算法实现方式,分别为HMC-DAG-SVM算法和HMC-DAG-MLP算法。在求解本文所提数学模型所描述的优化问题时,HMC-DAG算法中设计并添加了DAGLabel贪婪算法,DAGLabel贪婪算法可以在保证算法的分类结果满足层级约束要求的前提下,求得最优的分类结果。实验结果表明,本文提出的算法可以有效求解有向无环图层级多标签分类问题,与同类算法相比具有一定的精度优势。
其他文献
学习第二语言会使儿童在阅读能力方面比单语儿童表现出色,同时提高儿童的执行控制能力,并增强他们语言学习的灵活性。但是,学习第二语言也会给儿童带来一些不利的影响,其中最
采用回流和超声两种方法对蒙药材多叶棘豆中槲皮素进行提取,并用催化动力学光度法测定槲皮素的含量,检测波长517nm,回归方程为:Y=0.1652+548.0392X(mg/L)r=0.99992,槲皮素浓度在0.00~0.05mg/L
本文以Landsat TM遥感影像、HJ-1卫星CCD影像解译数据为基础,利用3S技术,得到西安市2000、2005及2010年土地利用/土地覆被数据。从空间分布变化、结构变化、类型转换及景观破
目的通过构建TGIF(TG-interacting factor,TGIF)稳定低表达的非小细胞肺癌细胞株(A549),观察沉默TGIF对A549细胞周期分布及Wnt/β-Catenin信号通路的影响,探讨TGIF调控细胞周
药品包装材料是指直接接触药品的包装材料和容器,其对保证药品质量起着重要的作用。在选择使用不同的药品包装材料时,既要考虑到药品包装材料对内在药品质量的保护作用,更要注意药包材本身的安全性问题,以防其中的有毒有害物质迁移至药品中,或者吸附药品中的有效成分,降低药品疗效甚至产生毒副作用。本课题通过测定药用卤化丁基橡胶塞表面二甲基硅油残留量和在葡萄糖氯化钠注射液中的迁移量,表明药用丁基胶塞表面残留二甲基硅
对一起联营企业违法案的处罚陈可平,谢淑华浙江省江山市卫生防疫站(324100)在食品卫生行政处罚中,违法主体或称处罚对象一般不难确定,但在一些联营或非正式联营的企业中,由于情况复杂,不能
目的了解干预后城区人群对糖尿病知识知晓情况,为城区人群糖尿病干预研究提供依据.方法对济南市某小区20岁及以上人群采用1/10系统随机抽样问卷进行描述性和分析性研究. 结果
通过对青岛市初中生物学科的教学与考核所经历的三个不同阶段的教学与评价情况的调查研究,为下一步的生物学教学与评价提供有价值的参考意见。
心房颤动(简称房颤)是常见心血管疾病,其发病率随年龄增长逐渐增加。房颤是最常见同时又是最有临床意义的心律失常。目前房颤的治疗方法大致分为药物治疗与非药物治疗,
本文主要兼顾时序,从空间角度选取了几个中心城市的戏剧活动连缀成篇,对抗战时期大后方的戏剧运动作出了基本轮廓勾勒,并对一些重要戏剧现象的历史文化意义作出了某种理解与阐释