面向典型场景的自动化机器学习算法研究及系统实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:javawm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各行各业数据量爆炸式的增长,信息技术已进入大数据和人工智能时代。但是,人工智能建模与普及应用面临很大瓶颈和制约,存在着诸如技术门槛高、人才严重短缺、大量依赖专家经验、建模周期长等若干问题和挑战。为了加速人工智能落地,提升AI建模效率,近年来,国际上出现了自动化机器学习(AutoML)技术,利用机器替代人工去自动化地完成模型选择和超参数调优,让模型设计自动化。目前,AutoML得到了国内外学术界和工业界的广泛关注,并在基本技术方法上已经取得显著的进展。然而,已有的AutoML学习方法尚不能很好地解决全流程数据分析场景以及终身学习场景下的自动化建模任务。一方面,大部分实际应用的模型往往是端到端的机器学习流水线。典型的数据分析流程涉及数据预处理、特征工程、算法选择、模型评估及超参数优化等多个阶段。数据分析人员需要了解每个阶段中每个方法,通过反复迭代和试错,最终挑选出性能优异的机器学习流水线。因此,开发一个高效的全流程的数据分析模型技术难度大且费时费力。另一方面,现有的AutoML技术方法大都用来解决静态数据集的自动化建模问题。在许多实际应用场景中,随着时间推移,数据分布会发生变化。这种数据特征及分布的动态改变也称为概念漂移。由于存在概念漂移,一个时间段下训练所得到的模型,有可能难以适应下一个时间段的数据,从而导致预测准确性下降。终身学习目的就是能够捕获数据概念漂移,使机器学习模型能够随着数据集的变化而动态更新。针对以上问题,本文首先研究提出一种结合强化学习和贝叶斯优化的机器学习流水线自动化设计算法框架Auto-PLD(AutoML for PipeLine Design)。其次,研究提出基于自适应模型加权集成的自动化终身学习算法框架Auto-LLE(AutoML for Lifelong Learning based on weighted Ensemble)。最后,设计实现简单易用、功能丰富的的自动化机器学习系统,能够同时支持自动化流水线设计和自动化终身学习。本文研究工作获得“互联网+”大学生创新创业大赛国赛金奖和NeurIPS 2018 AutoML Challenge第3名。本文的主要研究工作和贡献点包括:(1)研究提出面向全流程数据分析场景下的机器学习流水线自动化设计算法框架Auto-PLD。首先,定义一种包含五个阶段的机器学习流水线,并且可以支持分别处理连续型和离散型特征。然后,将自动化流水线设计问题分解为结构搜索和超参数优化两个子问题,并研究提出一种结合了强化学习和贝叶斯优化的算法,对这两个子问题进行交替优化。最后,为提高自动化流水线设计效率,进一步研究提出两种并行化的流水线构建方法。实验结果表明,Auto-PLD在大部分数据集下性能优于auto-sklearn算法。而且,随着计算节点的增加,并行化Auto-PLD可以进一步提升流水线构建性能。(2)研究提出面向终身学习场景的自动化机器学习算法框架Auto-LLE。针对存在概念漂移和数据不平衡的分类任务,研究提出一种基于自适应模型加权集成学习的算法。将概念类型分为“长期概念”(long-term concept)和“短期概念”(short-term concept),使用增量学习器和自适应权重更新方法分别处理不同类型的概念,最终进行加权集成预测。实验结果表明,Auto-LLE能够高效自动地捕捉概念漂移,提升模型预测性能。(3)在Auto-PLD和Auto-LLE的基础上,设计实现一个同时支持自动化流水线设计和自动化终身学习的系统。在系统设计上,通过设计易用的高层编程接口和可插拔式的模块集成方式,获得了较高的系统易用性和可扩展性;在任务类型上,支持分类、回归和聚类等常见的数据分析任务。
其他文献
川菜作为中国四大菜系之首,其本身就是文化和艺术的载体,极具民族代表性。从历史、美学与发展三个方面阐述川菜餐饮产品的艺术呈现方式,研究川菜“融合+创新”的发展模式,并
问题式教学是用问题整合相关学习内容,让学生在一个贯穿教学全过程的问题情境下发展综合思维,形成地理核心素养。笔者以“亚马孙热带雨林的开发与保护”为例,通过亚马孙热带
猪繁殖与呼吸综合征病毒是能够引起母猪繁殖障碍和新生仔猪呼吸症状的一种重要病原,此病主要经空气传播,通过呼吸道或胎盘感染,主要侵害种猪、繁殖母猪及仔猪,传播迅速,传播率高,仔
摘要:对于学生学习兴趣的培养和疏导一直以来都是小学教育课程的重要应用方法,尤其在小学体育教学中的作用至为关键。小学教育阶段的课程教学是对小学生学习知识的基础建立。有效的兴趣培养和疏导对提升小学教育效果起着关键性的作用。本文将针对小学体育教学中的学生兴趣培养和疏导进行研究讨论。  关键词:小学体育教学;学生兴趣;培养与疏导  小学教育注重对基础的教育。小学体育教学也是对小学生身体发育和体育知识的基础
根据前轮定位参数动态变化和轮胎磨损的关系,建立了计算客车前轮动态外倾角和实际转角值的数值模型。提出了以各定位参数为设计变量,以转角范围内的动态外倾值与理论倾角相差
目的研究腹腔镜与开腹手术治疗卵巢良性肿瘤对患者卵巢功能及神经内分泌功能的影响。方法选取80例卵巢良性肿瘤患者为研究对象。将80例患者按照随机数字表法分为2组。腹腔镜
目的探讨1. 5T核磁共振(MRI)动态增强扫描在肝癌分期评估中的临床应用。方法选择86例肝癌患者作为研究对象,记录所有患者的常规1. 5T MRI与动态增强扫描特征,并与病理情况进
摘要:方法是达成目标的重要手段,体育教学方法在体育教学中起着至关重要的作用,为此,教师选择和运用体育教学方法对学生的发展也至关重要,本文通过文献资料法对体育教学方法进行研究,结果表明小学生身体和心理变化的特点和规律及教学内容的特点是体育教学方法的选择的重要依据,与此同时,在应用教学方法的过程中,要考虑时机、教学方法的组合与优化等问题。  关键词:教学方法;选择与运用  雅思貝尔斯说过“所谓教育,不