论文部分内容阅读
序列数据是指一系列按先后顺序依次采集且顺序之间有特定意义,在分析过程中不可相互颠倒的数据。随着大数据时代的全面来临,互联网、物联网以及计算智能技术得到飞速发展,各类互联传感设备采集和交换的数据量级呈爆炸式增长。序列数据作为最常见的信息采集形式之一,广泛存在于各种业务流程中。例如,机器工作时产生的振动信号,城市交通系统中各类交通媒介的流量,股票市场的价格行情以及临床医学监测的人体生物波等。这些数据尽管在属性、结构以及相互关系上存在显著差异,但均属于具备序列特征的流式数据。作为业务流程的主要信息输出方式,其序列特征的背后往往隐含着系统的特定规律和潜在特性。如何通过分析序列数据,重构所观测系统的动力学行为,挖掘具有管理价值的业务模式,从而对系统进行预测和调控是当前大数据时代迫切需要解决的问题。序列数据的分析研究是一个新兴的交叉学科领域,集成了数据库、概率统计、机器学习、人工智能等多种成熟的理论和工具。针对序列数据显著的时序性、关联性以及高维性等特征,以模式挖掘为主的分析方法近年来十分活跃。根据应用需求,模式挖掘研究可以分为频繁模式挖掘和异常模式挖掘。尽管一般性研究中侧重于发现频繁出现的周期变换模式,但是在某些特定应用场景下,异常业务模式的发现往往具有更大的价值。基于异常模式挖掘分析序列数据的重难点在于面向不同应用领域的挖掘方法不具备普适性,需要针对数据类型和具体任务设计相应的挖掘方法。因此,本文首先基于数据的属性类别将序列数据划分为时间序列数据和空间序列数据;其次,立足于实际应用背景,根据两类序列数据的特征和异常模式挖掘的目标构建相匹配的集体离群点度量规则,将异常模式挖掘问题转换为集体离群点检测问题;最后,设计有针对性的集体离群点检测原理和算法框架,提高异常模式在各类序列数据上的挖掘效率。论文的主要研究工作如下:1.对于具有预标注信息的异常模式挖掘问题,若待测数据具备充足的正常样本标签信息,则异常模式挖掘目标在于从时间序列数据中挖掘与正常模式相似度差异最大的数据模式。对此,本文提出一种基于数据分布拟合识别异常模式特征的集体离群点检测方法。模型中采用多元混合高斯分布拟合序列数据中的集体离群点分布函数,根据最大似然法构建样本数据与待测数据分布特征的相似度度量方法,并设计一种基于不动点迭代的似然方程求解方法。若待测数据具备充足的异常样本标签信息,则异常模式挖掘的目标在于从时间序列数据中挖掘与异常模式相似度差异最小的数据模式。对此,本文提出一种基于层次聚类算法匹配异常模式特征的集体离群点检测方法。模型中首先依据不同的异常度量规则进行分层聚类,再过对比同层聚类簇以及对比上下层聚类簇的簇内信息构建样本数据与待测数据的相似度度量方法,并设计一种基于不动点迭代的改进聚类算法FPKmedoids(Fixed point k-medoids),通过并行处理各聚类簇提高收敛效率。2.对于不具备充足样本标签的异常模式挖掘问题,既无法确定各种模式的边界,也没有清晰的异常模式判断标准。异常模式挖掘的目标在于从时间序列数据中划分出不同模式对应的数据边界,再通过模式间的特征对比识别异常模式。对此,本文提出一种基于模式间转换概率度量异常模式特征的集体离群点检测方法。模型中首先以蚁群算法拟合序列数据中各类业务模式对应的数据边界,其次以各模式对应的信息素浓度构建模式间的转换概率度量,并设计一种基于不动点单纯形法优化初始参数的连续蚁群算法。3.对于空间同质序列数据中异常模式挖掘问题,具有不同空间属性的序列数据用于描述相似的行为属性且这些行为属性旨在表述相同的目标,因此同质序列数据大多由相似的机理生成,具备相似的数据分布和结构。异常模式挖掘的主要思路在于先融合多源序列数据以消除空间属性影响,再按照处理时间序列数据的方式分析融合后的数据。对此,本文以融合多类交通数据预测城市中实时出现的异常交通状态为例,提出一种基于同质序列数据在不同分辨率下融合分析的集体离群点检测方法。模型中首先从交通检测点的单类交通数据,交通检测点的多类交通数据,以及交通枢纽点的交通数据三种分辨率对城市交通信息进行聚类分析,其次通过与整体数据变化趋势进行对比构建表征异常模式的集体离群点度量方法,并设计一种基于“距离-密度-权重”的DDWK-medoids聚类改进算法自适应确定最佳聚类簇数和初始中心点等初始参数。4.对于空间异质序列数据中异常模式挖掘问题,具有不同空间属性的序列数据用于描述同一目标的不同行为属性,但这些行为属性是相互关联的,因此异质序列数据大多源于不同生成机理,在数据类别、结构和分布等方面不尽相同。异常模式挖掘的主要思路在于根据异质序列数据之间的关联关系,对多源序列数据的分析结果进行融合,再根据融合结果挖掘异常模式。对此,本文设计了一种基于自适应权重加权融合异质序列数据的集体离群点检测方法。模型首先以多窗口技术和相关性分析技术确定关联关系,再通过双层粒子群框架自适应确定各类异质序列数据对结果以及相互之间的影响权重,将基于权重融合后与预期显著异常的数据序列识别为表征异常模式的集体离群点。在算法框架中,本文设计了一种基于不动点单纯形法的改进粒子群算法FP-PSO(Fixed point based Particle swarm optimization),以不动点单纯形法在解空间内搜索到的近似不动点集作为初始种群并据此设置其余参数。