论文部分内容阅读
在面向复杂单调性分类任务的学习算法研究过程中,首要的问题是明确数据中存在的单调约束关系,有效地利用这些约束有利于从数据中获取更多的潜在价值。当前,大多数研究工作是建立在所有特征与决策之间存在单调约束关系的基础上解决单调分类问题的,并且假设所有的样本对之间是可比较的。然而,现实世界中的很多任务并不能同时满足这些要求。鉴于此,本文围绕单调性分类的若干关键问题开展一系列的研究工作。首先,针对单调性分类任务中的不可比较样本对问题,提出单调多变量决策树算法。该算法通过学习一组非负加权线性组合来表达不可比较样本属性之间的关系,并利用这些线性函数将不可比较的样本对转换为可比较的样本对,保证了数据划分的单调性,进而构建了单调多变量决策树算法(MMT)。为了发现最优特征子集,提出了一种更为紧凑的基于L1正则的单调多变量决策树算法(MMT-L1)。这些算法不仅可以处理不可比较的样本对,并生成非负权重以加强单调性,有效地改进了单调分类器的性能。其次,针对复杂单调性分类任务中准则和常规属性共存的问题,提出部分单调的决策树算法。虽然提出的单调多变量决策树算法能够较好的解决不可比较样本对的问题,但是该算法是在所有特征与决策存在单调约束关系的基础上建立的,是一种严格的单调分类算法。然而,很多真实任务并不满足这种严格的单调性约束。因此,提出排序不一致率来判别特征与决策之间是否存在单调约束,利用排序不一致率来捕获单个特征与决策的单调方向,对复杂单调分类任务中的准则和常规属性分别处理。该算法不仅可以处理特征与决策之间的单调关系,还可以处理特征与决策之间的非单调关系,进一步提升了单调分类器的性能。最后,针对占优准则的局限性以及对专家的依赖性问题,提出基于随机占优准则的单调贝叶斯网络参数学习算法。从数据中学习单调性约束,保证了随机单调一致性,减轻了专家定义单调性约束的工作量。从占优准则角度来分析现实世界中的分类任务,有时候并不能够很好的解决实际问题。严格意义上的占优准则,主要表达了对象A在所有特征或者部分特征上不比对象B差。然而,实际情况是对象A好的概率比B来的大或至少相等,这更加符合一阶随机占优准则。提出的算法不仅可以直接从数据中学习单调约束,而且应用了参数之间的累计分布间隔,学习到更为精确的贝叶斯网络参数。综上所述,本文从占优准则角度解决了不可比较样本对以及部分单调分类问题,从随机占优准则角度解决了从数据中学习基于参数累计分布间隔的单调约束问题,为适应复杂的单调性分类任务提供了重要的算法基础。