论文部分内容阅读
随着长江三峡库区蓄水位不断升高,给库区水环境质量带来了巨大的影响,为更进一步掌握库区水环境质量状况以确保库区水环境安全,环保部门逐步建立了愈来愈完善的三峡库区水质监测系统,获得了大量的水质时间序列数据。由于时间序列数据本身所具备的高维性、复杂性、动态性、高噪声特性以及容易达到大规模的特性,急需一种方法从这些数据中发现水质变化规律和分布状况。本文以时间序列数据挖掘为基础理论,以重庆市科技攻关重点项目(CSTC,2006AA7024)“三峡库区水环境安全预警平台与辅助决策关键技术研究”为应用背景,针对水环境中水质监测时间序列数据,围绕时间序列数据挖掘的理论与方法研究,从时间序列模式表示、多维时间序列相似度量、时间序列预测和时间序列数据挖掘模型与预警平台的应用集成四方面开展以下研究工作:①分析时间序列的模式表示,着重讨论时间序列的分段模式表示,通过分析分段线性化与分段多项式的基本思想,将分段线性化全局连续性的优点与分段多项式局部形态保持的优点结合起来,提出一种时间序列分段多项式连续模式表示方法。实验表明,时间序列分段多项式连续模式表示在保留分段多项式在局部形态上优点的同时具备分段线性化的全局连续性,且能够与分段线性化模式表示兼容,更好地保留时间序列形态。该算法具有的这种时间序列形态保持性,能够作为时间序列的趋势提取和噪声过滤的基本算法,可以推广应用于水环境安全领域中水质时间序列数据预处理过程。②在对一维时间序列Lp距离和DTW距离的相似性度量分析的基础上,研究将空间路径相似引入多维时间序列的相似性度量中,通过空间路径的相似性度量确定多维时间序列的相似性,提出基于路径DTW相似的多维时间序列相似性度量,并将其应用于多维时间序列聚类。通过实验将基于一维相似累加、基于路径欧氏距离相似和基于路径DTW相似的多维时间序列聚类效果进行比较,结果表明在多维时间序列聚类上,以路径DTW相似聚类能完全正确分类,路径欧氏距离相似聚类只在差距较小的多维时间序列间存在误分,效果都优于一维相似累加聚类。基于路径DTW相似的多维时间序列聚类用于水环境河流分类,获得了较好的实际应用效果。③针对时间序列神经网络预测的过拟合问题,研究RBF和神经网络集成的基本原理,结合PCA技术与样本聚类技术,提出一种时间序列RBF神经网络集成预测的方法。在时间序列分割后形成样本的基础之上,使用PCA技术得到新样本,以新样本维数为个体RBF网络输入维数,顺序选择新样本簇的中心和半径为个体RBF的中心参数,将个体RBF对输入/输出的先验知识引入到平均集成中。实验表明,该方法的时间序列预测精度高于任意个体RBF的预测精度,将该方法应用于水环境水质预测,获得了较好的实际应用效果。④研究时间序列数据挖掘与三峡库区水环境安全预警平台的应用集成方法。以服务请求的应用集成机制为基础,设计了基于服务请求的应用集成结构,及其开放的集成计算服务器结构,同时定义了应用客户端与集成计算服务基于XML的模型查询、模型目录、计算请求和计算结果的服务请求协议。本文所研究的时间序列数据挖掘能有效地进行水质趋势提取以及噪声过滤、根据水质各指标对河流进行分类和水质预测;设计的开放式集成计算服务器结构,不但能够支持水质模型服务的扩展,同时也能满足其它系统或平台对这些模型的需求,并通过实际应用验证了方法的可行性。