流数据实时在线演化聚类算法研究

来源 :武汉理工大学 | 被引量 : 2次 | 上传用户:testb321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅猛发展,许多新兴领域产生的数据都是以一种“流”的形式出现。这些流数据里携带着大量具有价值的信息,通常人们都是通过聚类与分类技术对数据进行处理,从而挖掘出人们所需要的信息来获得更大的效益。目前,大多数聚类算法面向的是离线静态数据,需要先将待处理的数据全部存储在内存中,然后通过多次遍历全部数据得到最终的聚类结果。然而,流数据是按时间序列连续到达的,其数据规模是不确定的,每个时刻到达的数据的接收过程和处理过程通常需要同步进行。流数据的时序性决定了流数据是在线数据流,其处理算法必须能够针对在线数据进行处理。流数据的无界性决定了全部数据无法也没有必要保存在有限的内存空间里,其处理算法必须能够在单个数据到来时及时处理并实时反馈处理结果。为了提高流数据聚类算法的准确率,本文在演化聚类算法(ECM)的基础上,采用均值法来更新聚类中心,采用簇中样本数据到其聚类中心的最大距离来更新聚类半径,引入戴维森堡丁指数(DBI)作为聚类处理过程中的数据归类准则,提出了一种基于DBI的流数据在线演化聚类算法DBIECM。与ECM算法相比,DBIECM算法保留了面向流数据在线聚类的能力,并且提高了聚类性能。为了在保留ECM算法的实时在线处理和一遍扫描的特性的前提下,同时提高聚类性能,本文在ECM算法的基础上,设计了新的聚类中心和聚类半径的更新方式,提出了一种流数据实时在线演化聚类算法SD-ECM。本文为SD-ECM算法设计了一个三元组的聚类特征向量,在没有访问历史数据的情况下,SD-ECM算法能够通过特征向量以较低的计算量来完成单个数据的聚类处理。与ECM算法和DBIECM算法相比,SD-ECM算法对流数据实时在线聚类具有更好的聚类性能。在研究中,我们发现SD-ECM算法、DBIECM算法和ECM算法对参数阈值Dthr非常敏感,Dthr的取值直接影响着最终的聚类簇数和聚类质量。为了解决因为先验知识的缺乏导致算法参数阈值Dthr设置不合理而产生过大聚类簇数的问题,本文在SD-ECM算法的基础上,新增了一个用于限制最大聚类簇数的参数阈值MaxNum,提出了一种参数阈值优化的流数据实时在线演化聚类算法ECMStream。ECMStream算法不但保留了一遍扫描的特性,而且降低了参数阈值Dthr的取值难度,使参数阈值Dthr能够自适应的增量更新。与本文中的其他算法相比,ECMStream算法面向流数据实时在线聚类不但具有更好的聚类性能和效率,而且具有更好的实际应用性能。由于聚类结果中的过期数据可能不再具有参考价值,对流数据聚类过程中的过期数据,本文设计了一种具有较低时间复杂度和空间复杂的处理方案,使得在删除过期数据的同时能够快速地更新聚类特征向量,从而消除过期数据对当前聚类过程的影响。
其他文献
目的探讨血清胆红素水平与冠心病的关系。方法经冠状动脉造影确诊的冠心病患者(冠心病组)92例和非冠心病患者(对照组)69例,冠心病组又分为单支病变亚组(40例)、双支病变亚组(31例)和三
目的:创造力在人们的日常生活、学习与工作中发挥着重要的作用,对于社会的进步、生活质量的提高都有着重要意义。正念作为一种在各领域都逐渐活跃起来的概念,可能会对创造力
渔业特别是淡水渔业作为我国农业的重要组成部分,是促进农村经济发展的基础产业之一。安徽省作为我国淡水产品的主产省份之一,不仅拥有居全国第二位的省内的淡水水面,淡水产
目的探讨维持性血液透析(maintenance hemodialysis,MHD)患者外周血成纤维细胞生长因子23(fibroblast growth factor-23,FGF-23)水平与心血管事件的关系。方法选择2008年10至2010
本研究目的是了解大学生身体姿势及运动损伤现状,探讨大学生不良身体姿势及运动损伤发生率较高的相关关系,探索纠正身体姿势及降低运动损伤发生率的方案。本研究采用文献资料
近年来我国并购重组事件中应用业绩补偿承诺的情况日益普遍,而业绩补偿承诺的应用可能会对上市公司绩效产生显著影响。具体来看,本文主要研究的影响主要包括对并购重组本身的影响分析、对公告后一段时间内股价累积超额收益的影响、以及对上市公司业绩的影响。本文最主要的研究内容是选取了2016年1月1日至2017年12月31日期间首次披露的上市公司并购事件,并做一定筛选得到了421个并购样本数据,进一步通过线性回归
目的观察血液透析滤过(hemodiafiltration,HDF)对维持性血液透析(maintenance hemodialysis,MHD)合并心力衰竭患者微炎症和心功能的影响。方法选择上海市利群医院合并慢性充血性
传统游戏是人类在长期生活中逐渐形成的一种娱乐性活动。中国民间传统游戏有着丰富的文化底蕴,它是历史文化发展的一个缩影,从侧面反映着人类活动的发展形式和存在方式。随着时代的发展,中国民间传统游戏的单一游戏模式已无法满足当代人的需求,如何将中国民间传统游戏的传播与发展模式进行改革,使其适应新时代的发展需求,成为了现阶段急需解决的问题。本文针对形式单一、逐渐消逝的宝鸡扶风传统游戏进行系统研究,通过超媒介叙
目的研究脂多糖(lipopolysaccharide,LPS)对大鼠腹膜间皮细胞(rat peritoneal me-sothelial cells,RPMC)白细胞介素15(interleukin-15,IL-15)、IL-6及丙二醛(malondialdehyde,MDA)的