面向序列数据异常模式挖掘的集体离群点检测方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:aiggo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列数据是指一系列按先后顺序依次采集且顺序之间有特定意义,在分析过程中不可相互颠倒的数据。随着大数据时代的全面来临,互联网、物联网以及计算智能技术得到飞速发展,各类互联传感设备采集和交换的数据量级呈爆炸式增长。序列数据作为最常见的信息采集形式之一,广泛存在于各种业务流程中。例如,机器工作时产生的振动信号,城市交通系统中各类交通媒介的流量,股票市场的价格行情以及临床医学监测的人体生物波等。这些数据尽管在属性、结构以及相互关系上存在显著差异,但均属于具备序列特征的流式数据。作为业务流程的主要信息输出方式,其序列特征的背后往往隐含着系统的特定规律和潜在特性。如何通过分析序列数据,重构所观测系统的动力学行为,挖掘具有管理价值的业务模式,从而对系统进行预测和调控是当前大数据时代迫切需要解决的问题。序列数据的分析研究是一个新兴的交叉学科领域,集成了数据库、概率统计、机器学习、人工智能等多种成熟的理论和工具。针对序列数据显著的时序性、关联性以及高维性等特征,以模式挖掘为主的分析方法近年来十分活跃。根据应用需求,模式挖掘研究可以分为频繁模式挖掘和异常模式挖掘。尽管一般性研究中侧重于发现频繁出现的周期变换模式,但是在某些特定应用场景下,异常业务模式的发现往往具有更大的价值。基于异常模式挖掘分析序列数据的重难点在于面向不同应用领域的挖掘方法不具备普适性,需要针对数据类型和具体任务设计相应的挖掘方法。因此,本文首先基于数据的属性类别将序列数据划分为时间序列数据和空间序列数据;其次,立足于实际应用背景,根据两类序列数据的特征和异常模式挖掘的目标构建相匹配的集体离群点度量规则,将异常模式挖掘问题转换为集体离群点检测问题;最后,设计有针对性的集体离群点检测原理和算法框架,提高异常模式在各类序列数据上的挖掘效率。论文的主要研究工作如下:1.对于具有预标注信息的异常模式挖掘问题,若待测数据具备充足的正常样本标签信息,则异常模式挖掘目标在于从时间序列数据中挖掘与正常模式相似度差异最大的数据模式。对此,本文提出一种基于数据分布拟合识别异常模式特征的集体离群点检测方法。模型中采用多元混合高斯分布拟合序列数据中的集体离群点分布函数,根据最大似然法构建样本数据与待测数据分布特征的相似度度量方法,并设计一种基于不动点迭代的似然方程求解方法。若待测数据具备充足的异常样本标签信息,则异常模式挖掘的目标在于从时间序列数据中挖掘与异常模式相似度差异最小的数据模式。对此,本文提出一种基于层次聚类算法匹配异常模式特征的集体离群点检测方法。模型中首先依据不同的异常度量规则进行分层聚类,再过对比同层聚类簇以及对比上下层聚类簇的簇内信息构建样本数据与待测数据的相似度度量方法,并设计一种基于不动点迭代的改进聚类算法FPKmedoids(Fixed point k-medoids),通过并行处理各聚类簇提高收敛效率。2.对于不具备充足样本标签的异常模式挖掘问题,既无法确定各种模式的边界,也没有清晰的异常模式判断标准。异常模式挖掘的目标在于从时间序列数据中划分出不同模式对应的数据边界,再通过模式间的特征对比识别异常模式。对此,本文提出一种基于模式间转换概率度量异常模式特征的集体离群点检测方法。模型中首先以蚁群算法拟合序列数据中各类业务模式对应的数据边界,其次以各模式对应的信息素浓度构建模式间的转换概率度量,并设计一种基于不动点单纯形法优化初始参数的连续蚁群算法。3.对于空间同质序列数据中异常模式挖掘问题,具有不同空间属性的序列数据用于描述相似的行为属性且这些行为属性旨在表述相同的目标,因此同质序列数据大多由相似的机理生成,具备相似的数据分布和结构。异常模式挖掘的主要思路在于先融合多源序列数据以消除空间属性影响,再按照处理时间序列数据的方式分析融合后的数据。对此,本文以融合多类交通数据预测城市中实时出现的异常交通状态为例,提出一种基于同质序列数据在不同分辨率下融合分析的集体离群点检测方法。模型中首先从交通检测点的单类交通数据,交通检测点的多类交通数据,以及交通枢纽点的交通数据三种分辨率对城市交通信息进行聚类分析,其次通过与整体数据变化趋势进行对比构建表征异常模式的集体离群点度量方法,并设计一种基于“距离-密度-权重”的DDWK-medoids聚类改进算法自适应确定最佳聚类簇数和初始中心点等初始参数。4.对于空间异质序列数据中异常模式挖掘问题,具有不同空间属性的序列数据用于描述同一目标的不同行为属性,但这些行为属性是相互关联的,因此异质序列数据大多源于不同生成机理,在数据类别、结构和分布等方面不尽相同。异常模式挖掘的主要思路在于根据异质序列数据之间的关联关系,对多源序列数据的分析结果进行融合,再根据融合结果挖掘异常模式。对此,本文设计了一种基于自适应权重加权融合异质序列数据的集体离群点检测方法。模型首先以多窗口技术和相关性分析技术确定关联关系,再通过双层粒子群框架自适应确定各类异质序列数据对结果以及相互之间的影响权重,将基于权重融合后与预期显著异常的数据序列识别为表征异常模式的集体离群点。在算法框架中,本文设计了一种基于不动点单纯形法的改进粒子群算法FP-PSO(Fixed point based Particle swarm optimization),以不动点单纯形法在解空间内搜索到的近似不动点集作为初始种群并据此设置其余参数。
其他文献
目的:探讨对接受全髋关节置换术的患者进行术后细节护理在预防其发生术后并发症方面的效果。方法:将2017年1月至12月期间在合肥市第二人民医院进行全髋关节置换术的52例患者随
<正>~~
会议
震颤麻痹又称帕金森氏病,是一种常见的神经系统疾病,其病理特征为黑质及黑质纹状体通路变性,神经递质系统平衡破坏.临床表现为肢体震颤,肌张力增高,进行性运动徐缓.笔者采用
单味中药荔枝核制成片剂临床应用治疗轻型和中型糖尿病30例,经服用3~6个月,总有效率为83.33%,说明本品为一种治疗糖尿病的有效药物。
在第十三届全国人民代表大会第二次会议的政府工作报告中指出,2019 年中国要实施更大规模的减税,重点降低制造业和小微企业税收负担,其中的重头戏是增值税改革。具体来说,深
1910 年, 德国地球物理学家、气象学家阿尔弗莱德·魏格纳偶然发现大西洋两岸的南美大陆和非洲大陆的海岸线非常相似, 一个惊人的想法在他心中产生: 难道它们曾经是一个统一的整体, 究竟是什么力量把它们分开的呢? 经过反复观察后, 他还发现北美大陆、格陵兰岛和欧洲大陆轮廓正好也可嵌合在一起。  魏格纳坚信这些决不是巧合, 于是从地质学、古生物学、古气候学等角度进行了科学的研究、推敲。经过实地考察,魏
本文从教师心态的自我调节和关爱学生两个角度展开,进行特殊学生教育的探讨。包括教师心理需要调整,降低对学生的期望值;教师需要和家长形成统一的教育理念,形成教育共力;教