集成回归问题若干关键技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:intint
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为机器学习领域的四大研究方向之一,集成学习通过训练多个学习器并将其结果进行组合,从而在大多数情况下显著提升了学习器的泛化能力。因此,集成学习的基础理论、集成学习算法及应用是近年来机器学习领域的研究重点和热点。作为机器学习研究领域所要解决的两大核心问题(分类问题和回归问题)之一,回归问题已经被广泛应用于气象、水文、医学、金融、电力、交通等诸多领域。针对回归问题,国内外研究者已经提出了许多学习算法,如人工神经网络、分类回归树、支持向量机回归等等。集成学习在分类问题中已经取得了丰硕的理论和应用研究成果。然而,对于回归问题,集成学习的研究起步相对较晚,研究成果相对于分类问题也要少很多。相关的理论和应用研究还很不成熟,还存在大量尚未很好解决的技术问题。为此,本文围绕集成学习在回归问题中所要解决的算法框架、个体学习器生成、个体学习器的集成剪枝和结果组合、算法并行化等四个关键技术进行了深入地分析和研究。最后,基于本文的研究成果,设计并实现了一个基于公共卫生大数据的传染病集成预测系统。概括起来,本文的主要研究内容和创新性研究成果包括以下几个方面:(1)提出了基于学习过程模型的集成回归学习算法框架,基于本文提出的集成回归学习算法框架,进一步分析和讨论了如何设计一个有效的集成回归学习算法。以往集成回归学习算法的设计过程多借鉴集成学习在分类问题中的两阶段设计过程,即集成生成和集成组合,尚不存在专门针对回归问题的通用集成学习算法框架。针对这一问题,本文从学习的角度提出了基于学习过程模型的集成回归学习算法框架,并分析了如何基于所提出的算法框架设计有效的集成回归学习算法。(2)提出了基于多重扰动的异质集成回归学习算法,并从提高个体学习器的准确度和个体学习器之间的差异度两方面对算法进行了实验验证。以往的集成学习算法大多采用单一扰动和同质学习算法来构建集成学习器,所生成的学习器在差异度方面很难得到保证。针对这一问题,本文提出了基于多重扰动的异质集成回归学习算法。在生成差异性个体学习器方面,算法同时从训练数据集、基学习算法、算法参数三个方面进行扰动。在提高准确度方面,算法通过同时减小偏差和方差来减小泛化误差,同时使用重采样后剩余的样本作为验证数据集来避免学习器发生过拟合。该算法同时提高了个体学习器的准确度和差异度,因此进一步提升了集成学习器的整体泛化能力。(3)提出了基于后剪枝的自适应动态加权集成算法,并用于解决动态环境下非平稳时间序列数据的回归问题。现实世界中的很多系统都具有一定的非平稳性,动态适应变化的样本数据是集成学习所面临的关键技术难题之一。以往基于静态前剪枝和静态集成组合的集成学习算法难以有效地处理非平稳时间序列数据。针对这一问题,本文提出了基于后剪枝的自适应动态加权集成算法。算法采用后剪枝的方式在新样本数据的局域空间中选择学习器子集,然后基于学习器子集在局域空间上的预测性能动态计算各学习器的组合权值。同时,引入极限学习机作为基学习算法来加速学习过程。本文基于该算法对非平稳时间序列数据进行了实验验证,取得了令人满意的效果。(4)提出了集成回归学习算法的并行化框架及MapReduce实现,用于解决大规模数据集回归学习时算法的并行性和可扩展性问题。本文第二章提出的多重扰动异质集成回归学习算法是基于AdaBoost.RT算法的,其内嵌的序列迭代式学习过程使其难以通过并行化来加速学习过程。针对这一问题,本文提出了集成回归学习算法的并行化框架并基于MapReduce进行了并行化实现。并行化算法不仅保持了原有算法在单机环境下的性能,还有效地利用集群环境来加速其学习。基于所实现的并行化集成学习算法解决大规模数据集的回归问题,获得了很好的泛化能力和可扩展性。(5)设计并实现了基于公共卫生大数据的传染病集成预测系统,解决了公共卫生大数据的存储管理、传染病预测模型构建及预测等问题。公共卫生领域巨大的数据量、多样的数据类型和结构,已经无法靠单一预测模型来进行有效的处理。针对这一问题,本文设计并实现了基于公共卫生大数据的传染病集成预测系统。在领域知识的指导下,通过分析公共卫生领域海量数据的特征,设计并实现了高效的公共卫生大数据存储管理技术。在此基础上,研究了多维数据下的传染病预测模型,构建了机器学习元算法库和基于元算法库的预测模型库,实现对传染病的短期定量预测。系通过上海地区近10年的腹泻病例和气象数据进行示范应用,验证了系统的有效性和实用性。
其他文献
文章通过阐述什么是口语交际,分析了我国口语交际教学现状及教学中存在的问题,结合语文教学理论、口语教学实际,介绍了口语交际教学的具体策略。
近50年来,随着物质生活水平的提高,代谢综合征(Metabolic syndrome,MS)的患病率有逐年增多的趋势,且因MS为一个多学科问题,不仅涉及心血管、代谢内分泌和肾脏疾病,还与某些消化、妇产
硅微机械陀螺是一种利用哥氏效应敏感物体转动角速率的MEMS惯性传感器。它能够在同一块硅片上集成敏感结构和外围测控电路,具有成本低、体积小、重量轻、功耗低等优点,在军事
针对工业企业能源管理信息系统(EEMIS)建设过程中缺乏能效诊断技术的问题,在传统信息系统和自动化系统的基础上,通过机理建模和机器学习相结合的方法,研究了重点用能设备、耗