面向数据驱动建模的数据预处理方法研究

被引量 : 0次 | 上传用户:gaohenghao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于生产工艺、技术及设备的日趋复杂化,经典控制理论中依据物理化学机理建立精确数学模型对生产过程进行控制的传统方法已变得越来越困难。在此背景下,数据驱动思想得到快速发展,然而采集于生产过程中的监测数据往往存在含有缺失值、异常值等数据质量问题,如果直接利用这些未经处理的数据进行数据驱动作预测或决策,所建模型的准确性会受到极大影响,甚至产生错误的分析结果。因此,在数据驱动建模前必须对数据进行预处理。本文首先对数据驱动以及数据预处理的发展进行了回顾和总结,介绍了数据驱动建模的相关理论知识,对数据预处理的基本任务和相应的主要方法作了详细阐述。然后,本文对缺失值填补问题进行了重点研究。在总结分析现有主要填补方法的基础上,针对工业过程监测数据的实际特点,提出了一种基于遗传优化的自适应填补算法,并成功运用于电站锅炉监测数据的缺失值填补,对于不同工况下产生的缺失值以及在缺失率较高的情况下,该算法都具有较为理想的准确率与稳定性。之后,着重研究了异常值检测问题。在比较学习异常值检测主要算法优缺点的基础上,给出一种基于全局距离和的异常值检测算法,不仅消除了经典的基于距离的异常值检测算法对参数设置的敏感性,而且降低了数据分布不均对检测算法的影响,同时量化了异常值的异常程度。在电站锅炉监测数据上仿真分析,结果表明该算法具有较高查全率和较低误报率。最后,分别利用未经预处理和经本文所提算法预处理的数据建立基于最小二乘支持向量机的电站锅炉烟气含氧量软测量模型,通过对比所建模型的准确度,表明本文所提的基于遗传优化的自适应缺失值填补算法和基于全局距离和的异常值检测算法等数据预处理算法有效改善了数据质量,为监控电站锅炉的运行、提高其燃烧效率及降低污染排放奠定了坚实的数据基础。
其他文献
批评话语分析旨在通过分析语篇的语言特点以及语言环境的社会、文化和历史背景来讨论隐藏在语言结构中的意识形态意义,从而揭示语言、权利和意识形态之间的关系。新闻报道,作为
外商直接投资(FD I)通常被认为是先进技术转移和扩散的重要渠道,而近年来对于FD I是否能促进国内企业的技术进步,正日益成为学者们和产业界争论的焦点。本文运用全国各地区的
以1998-2006年中国大陆30个省级行政区域的研发面板数据为分析样本,应用DEA的方法,实证测评了各地区研发创新过程中的技术效率、技术进步及全要素生产率增长情况,并就技术效
<正> 在宏观经济调控中,对价格水平及其变动趋势的判断正确与否,直接关系到宏观调控的方向和力度的把握,关系到价格改革及与价格变动密切相关的各种改革措施的出台时机和力度
结合民航安全技术管理专业的特点,从课程的教学准备、教学内容、教学方法和教学效果等方面着手,建立了高职民航安全技术管理专业教学质量评价指标体系。
随着生活水平的提高,人们对医疗灭菌消毒更加关注了。脉动真空灭菌系统是国内九十年代中期发展的一种新型灭菌设备,由于采用了脉动真空技术,灭菌效果好,广泛应用于医院供应室
本文对野生马齿苋种子的发芽特性进行了初步研究,结果表明,马齿苋种子发芽受温度、浸种时间、种子贮藏时间等因素影响.温度低于20℃时,不发芽,20℃时开始发芽,发芽适温为25~30
韦伯(Max Weber)的"Idealtypus"(英译为"ideal type")为其方法论中众所皆知的核心概念,但其内涵与解释却向未得到足够的共识。此一概念在今日的中文世界里,通常被翻译为"理想
教育部世纪之交进行的新课程改革给农村中小学语文教学带来新的机遇,同时也提出了新的挑战。当前农村小学语文教学在教师队伍、学生现状、教育观念和评价方式都存在诸多不适
技术效率是决定经济增长的关键要素,而科技环境是影响技术效率的重要因素,研究科技环境对技术效率的影响对于促进经济增长意义重大。本文研究的科技环境因素包括科技人力资源