论文部分内容阅读
分类学习由于在众多领域的广泛应用已经引起众多科研工作者的关注,然而在很多真实的应用中如生物信息、生物医药等,用户对特定AUC区域的分类效果更为在意,而传统的分类算法一般以精度为学习目标,因此很难获得这些应用中用户的满意。对此,近些年有学者提出研究直接优化部分AUC(PAUC)的分类算法,并取得了较好的效果。但已有的直接优化PAUC的算法多关注算法的性能,而对算法效率关注较少,因此很难适用于当今大规模数据的应用场合。本文就在这样的背景下,对面向大规模数据的PAUC优化算法展开研究。文章的主要工作如下:(1)文中首先介绍了常用的二分类学习的优化算法,然后分析了当前较为通用的评估准则。因PAUC是在AUC的基础上提出,因此本文重点阐述了AUC以及PAUC相关概念,其次在分析了当前面向PAUC相关的优化算法研究不足的基础上,提出研究面向大规模数据的PAUC优化算法。(2)本文提出了一种基于在线学习的直接优化PAUC算法,与此前算法相比,该算法拥有更快的收敛速度。本算法通过结合在线学习的思想使得直接优化PAUC算法的效率获得了较大提高,进而使其更适用于大规模数据的应用环境。文中首先定义了新的目标函数,并在算法实现过程中融合SC-RMSProp策略,使得收敛速度达到。同时,本算法通过结合“Top k”策略有效的适应了PAUC评估标准中对部分样本的关注,使得更多相关的样本参与训练,为获得较好的精度提供了保证。在大规模数据集上的实验表明,本算法能够有效地解决此类问题。(3)本文从随机学习的角度出发,提出了基于随机学习的直接优化PAUC分类算法。随机学习的应用保证本算法能有效地解决大规模数据的分类问题。在算法实现过程中,首先定义了基于随机学习的目标函数。同时,在每次迭代过程中从设定的缓冲区中随机选择正负样本参与训练,进而保证样本更具代表性。此外,本算法通过结合Adagrad策略获得了更好的分类效果,该策略使得算法获得一个适用于样本各维特征的自适应步长,并充分利用了历史的梯度信息,不仅提高了算法的分类精度而且降低了算法的参数敏感性。