面向大规模数据的直接优化PAUC算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:tliyantttt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类学习由于在众多领域的广泛应用已经引起众多科研工作者的关注,然而在很多真实的应用中如生物信息、生物医药等,用户对特定AUC区域的分类效果更为在意,而传统的分类算法一般以精度为学习目标,因此很难获得这些应用中用户的满意。对此,近些年有学者提出研究直接优化部分AUC(PAUC)的分类算法,并取得了较好的效果。但已有的直接优化PAUC的算法多关注算法的性能,而对算法效率关注较少,因此很难适用于当今大规模数据的应用场合。本文就在这样的背景下,对面向大规模数据的PAUC优化算法展开研究。文章的主要工作如下:(1)文中首先介绍了常用的二分类学习的优化算法,然后分析了当前较为通用的评估准则。因PAUC是在AUC的基础上提出,因此本文重点阐述了AUC以及PAUC相关概念,其次在分析了当前面向PAUC相关的优化算法研究不足的基础上,提出研究面向大规模数据的PAUC优化算法。(2)本文提出了一种基于在线学习的直接优化PAUC算法,与此前算法相比,该算法拥有更快的收敛速度。本算法通过结合在线学习的思想使得直接优化PAUC算法的效率获得了较大提高,进而使其更适用于大规模数据的应用环境。文中首先定义了新的目标函数,并在算法实现过程中融合SC-RMSProp策略,使得收敛速度达到。同时,本算法通过结合“Top k”策略有效的适应了PAUC评估标准中对部分样本的关注,使得更多相关的样本参与训练,为获得较好的精度提供了保证。在大规模数据集上的实验表明,本算法能够有效地解决此类问题。(3)本文从随机学习的角度出发,提出了基于随机学习的直接优化PAUC分类算法。随机学习的应用保证本算法能有效地解决大规模数据的分类问题。在算法实现过程中,首先定义了基于随机学习的目标函数。同时,在每次迭代过程中从设定的缓冲区中随机选择正负样本参与训练,进而保证样本更具代表性。此外,本算法通过结合Adagrad策略获得了更好的分类效果,该策略使得算法获得一个适用于样本各维特征的自适应步长,并充分利用了历史的梯度信息,不仅提高了算法的分类精度而且降低了算法的参数敏感性。
其他文献
创新是我国时代的主旋律,在党的十九大报告中习近平总书记也指出创新是引领发展的第一动力。创新作为企业可持续发展的重要手段,可以为企业带来新技术、新产品,为企业创造更
目的:本文基于数据挖掘技术,采用回顾性与前瞻性相结合的研究方法整理李廷荃教授名医工作室治疗腹泻型肠易激综合征的部分病案,初步分析总结李廷荃教授治疗腹泻型肠易激综合征的辨证和遣方用药之间的内在规律,从而进一步总结李廷荃教授在治疗腹泻型肠易激综合征过程中的学术思想。方法:此次研究收集整理李廷荃教授诊断为腹泻型肠易激综合征的门诊病例,将其病例信息完整录入“名老中医经验挖掘平台”数据挖掘软件,通过该软件对
为改进和完善对高校教师教学质量进行定量评价的方法,引入了层次分析法(AHP)和模糊数学方法,并结合高校教师教学工作的各方面内容,分层次设置不同的评价指标,融合了领导、学
将计算机语言VC与数学软件Mathematica相结合,开发出一个应用画图软件.该软件是可以脱离Mathematica环境的自动执行软件,配合高等数学空间解析几何一章的讲解可起到较好的辅
通过对我国证监会<关于在上市公司建立独立董事制度的指导意见>同国外相关独立董事制度的分析对比,说明中外独立董事在董事会中的人数比例及任职资格、地位与作用、义务与权
采用三维有限元法对超低温下玻璃纤维强化树脂层合板的短梁法层间剪切强度进行了研究,通过与二维有限元解析结果的对比,分析了试验片三维形状对中性面上剪切应力分布的影响;通过