面向不确定数据流的聚类和模式挖掘技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:alsbzxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络流量管理、金融数据分析、网站日志管理、视频流版权保护等数据流应用中,由于设备精度、噪音、干扰和隐私保护等问题,数据流中往往包含着大量不确定性数据,而这些不确定性对数据流的管理和挖掘带来了挑战。通过分析数据流的不确定性,可以降低不确定性对挖掘结果的影响,进而提升数据流挖掘的质量。在针对不确定数据流的挖掘中,分析数据的不确定性特征对控制挖掘质量尤为重要。在交通监控、金融数据分析、网站监控等包含大量对象的应用中,数据对象的不确定性,对计算对象间的相似度和对象聚类的质量产生了很大的影响。而在对环境监控、气象监测等数据流的在线聚类过程中,需要考虑数据元组的不确定性对微簇质量的影响。在针对不确定数据流的频繁模式挖掘中,需要根据不确定项集的概率频繁程度和概率分布,反映不确定频繁项集的频次分布情况。在针对不确定数据的序列模式挖掘中,需要基于概率模型度量序列模式的概率频繁程度,这就需要对现有的序列模式挖掘方法进行扩展,并提高概率序列模式的挖掘效率。本论文旨在通过对不确定数据概率特征进行分析,以提高针对不确定数据流的聚类和模式挖掘的质量。论文围绕着基础科研业务费项目“基于概要模型的海量复杂时序数据分析方法研究”、自然基金项目“多核系统下调控模式识别的MapReduce模型及算法研究”和基础科研业务费项目“基于Sketch的不确定流数据管理关键技术研究”等课题,研究不确定数据流的挖掘。本文的研究内容主要针对不确定对象聚类、不确定数据流聚类、概率频繁模式挖掘和概率频繁序列模式挖掘四个方面,概括为以下四个部分:第一部分研究基于概要结构的不确定对象聚类方法。针对现有的不确定聚类方法未考虑不确定对象的概率分布的问题,分别在离散域和连续域上对不确定对象的概率分布进行建模。为了使概率分布的提取更适合数据流环境,通过构建概要数据模型以降低海量对象数据的规模。针对概要数据,采用Kullback-Leibler散度计算不确定对象的相似度,并使用改进的快速高斯变换提高了计算相似度的效率。在此基础上,本文采用改进的KL-散度作为相似性度量,对现有的基于划分的聚类算法分别进行了扩展,提出了基于概率分布相似性的KM-KL聚类算法。最后通过仿真实验验证了该算法对聚类的质量和效率的提升。第二部分研究基于质量度量的不确定数据流聚类方法。针对现有不确定数据流在线聚类方法,基于概率分布给出了微簇的质量度量模型,并基于质量度量构建了描述微簇不确定性质量的直方图模型。在此基础上,提出了一种基于质量度量和时间划分的在线微簇维护策略,通过将缓冲区按照质量和时间区间进行划分,根据微簇的质量特征调整缓冲区,以达到对微簇的质量和成长时间进行细粒度控制的目的。并基于微簇维护策略,提出了一种基于质量度量的不确定数据流聚类算法。同时,针对高维不确定数据流,基于质量度量和投影映射方法,将高维全空间投影到微簇相关的子空间中。在此基础上,给出了在微簇相关子空间中的相似度计算公式,提出了一种基于子空间的高维空间中不确定数据流的聚类算法。最后通过分别与现有算法进行实验比较,说明了低维和高维聚类算法的准确性和高效性。第三部分研究基于Sketch的不确定数据流频繁模式挖掘方法。基于可能世界模型描述频繁模式的概率特征,通过将后缀支持度与Sketch相结合以优化概率频繁模式的挖掘方法。将概率频繁模式挖掘分为两个部分:面向支持度的频繁模式挖掘和频繁项的概率分布统计。基于后缀支持度,优化了频繁模式树的构建,提出了一种基于后缀支持度的频繁模式挖掘算法。同时,基于Sketch和滑动窗口,统计项集的概率分布信息,并提出了一种面向不确定数据流的概率频繁模式的挖掘策略。同时,基于概率分布信息,设计了频繁模式的预测模型,提出了基于预测模型的剪枝算法。最后通过实验表明基于后缀支持度和预测剪枝的挖掘算法,能提高不确定数据流频繁模式挖掘的效率和准确性。第四部分研究基于增长模式的不确定序列模式挖掘方法。在分析序列级不确定数据模型特点的基础上,阐述了概率序列模式的频度测定方法。分析了现有的序列模式挖掘算法中的树形存储结构的冗余性,通过对相同后缀进行合并,基于有向无环图提出了一种概率序列的存储结构PG-DAG。为了提升PG-DAG对概率序列模式中支持度的表示,提出一种使用边的权值表示序列支持度的序列存储结构(W-PG-DAG)。基于概率模型设计剪枝策略,提出了针对不确定序列的概率频繁序列模式挖掘算法。最后通过实验表明,该算法能有效地挖掘不确定序列的概率频繁模式的挖掘效率,并提升存储效率。
其他文献
充分利用滨海地带的自然环境和景观资源,通过规划引导和控制,逐步优化景观环境,形成了与该地段城市景观相协调的特色景观.同时创造了良好的人居环境,做到了可持续性发展,形成
探讨精浆果糖及精浆抗精子抗体与精子参数关系对男性不育患者的影响情况,为临床诊断、治疗提供依据。使用SQA-V全自动精子质量分析仪对50例男性不育患者精液标本进行常规分析
<正>国内金融业的AI利用处于浮躁的概念阶段,多数仅实现了部分流程上的自动化。近期,有消息称华尔街投行"老大"高盛600名交易员裁剩2名;此前摩根士丹利已经全球裁员1200人;瑞
介绍专门用途英语的概念、分类及特征,指出专门用途英语具有功能性和目的性等,区别于普通英语,其翻译实践需要与之特征相宜的翻译理论指导。在对尤金·奈达提出的功能对等翻
<正>2013年12月30日,记者从福建省科技厅获悉,福建水力消防成套设备有限公司等274家企业获批成为福建省第六批创新型试点企业。这是"水力消防"创新工作结出的又一硕果。"水力
随着大数据时代的到来,作为信息化装备等复杂信息系统的重要组成部分,数字界面早已取代传统硬件界面,成为现代技术的重要特征之-。数字界面在军事、信息安全、地理交通等诸多
在当今高度信息化、网络化及数字化的社会环境下,信息安全问题备受社会各界广泛关注。生物特征识别技术具有普遍性、唯一性、稳定性、安全性、可靠性等特点,因此成为当前信息
物理是一门以观察、实验为基础的科学,实验在物理教学中具有十分重要的作用。尤其是课堂中最常见的演示实验更是课堂教学的重要组成部分。针对演示实验存在的问题及对策,笔者
在过去的十几年中,互联网上的信息量迅速增加,人们从信息匮乏时代进入了“信息过载”时代。海量信息使人们无法快速、准确地从如此庞大的信息资源中定位到自己感兴趣的信息。