【摘 要】
:
随着传统数据流聚类研究的不断发展和对数据不确定性的深入认知,学者们提出了针对不确定性数据流的聚类算法。由于不确定性描述的引入使得传统的数据流聚类算法并不能完全适
论文部分内容阅读
随着传统数据流聚类研究的不断发展和对数据不确定性的深入认知,学者们提出了针对不确定性数据流的聚类算法。由于不确定性描述的引入使得传统的数据流聚类算法并不能完全适用于不确定性数据流聚类,因此这就对聚类技术提出了更高的要求和新的挑战。本文研究分析了前人的一些不确定性数据流聚类算法,总结了各个算法的优点与不足。鉴于基于密度网格的不确定性数据流聚类算法中,网格利用率低、网格划分以及密度阈值的设置等问题,本文提出并实现了基于密度树的不确定性数据流聚类算法UD-Tree(Uncertain Density Tree)。该算法采用了CluStream算法的框架处理模型,将聚类过程分为在线过程与离线过程。在线聚类过程对于不断到来的不确定性数据进行快速处理,按属性不同对应到树的不同层,并且对树的每层都进行相同划分,从而使不确定性数据映射到不同的叶子节点上,形成密度树结构,这种方法相比较传统的网格划分的方法而言,很大程度上消除了空网格,提高了空间的利用率以及聚类的效果。根据近期数据更加重要的原则而采用时间衰退模型,并根据该模型提出了叶子节点概率密度的概念,又提出了概率密度叶子节点特征向量并用其保存不确定性数据的信息,通过更新周期和孤立叶子节点函数的设置,减小算法计算量提高执行效率。离线聚类过程对在线过程中形成概要信息进行更精确的聚类,根据叶子节点的概率密度将叶子节点分为稠密、过渡、稀疏,并对空间位置相邻的稠密叶子节点进行合并形成簇。通过在真实数据集Forest CoverType与KDD Cup 1999 data上的实验证明,本文算法在准确率及聚类质量方面都要比EMicro算法有一定的提高。
其他文献
目标跟踪技术是机器视觉领域的主流,智能化时代正在飞快的向我们靠近,包括人机智能交互、辅助医疗诊断、安全监控和国防军事等领域不断凸显其应用价值,成为继图像处理及模式
当今,随着先进科学技术的不断涌现,人们的需求不断增加,人脸识别以其友好性、直接性、快捷性等独特方面又成为学者们研究的重点。而人脸检测与跟踪技术作为人脸识别的关键步
视频目标跟踪,作为当今社会的前沿技术,在计算机视觉领域占有重要的地位,经过多年的发展,已经在国防、医疗、人工智能、视频监控等方面有着广阔的应用前景。传统的目标跟踪算
目的:检测多囊卵巢综合征(PCOS)痰湿证患者的血清、卵泡液和颗粒细胞中microRNA-183/200/223的表达,来筛选PCOS痰湿证的生物标志物,为其中医证候诊断的标准化提供理论依据。方法:收集2018年1月到2019年1月期间,就诊于山东中医药大学附属医院,年龄在20-37岁之间的不孕症女性患者,行IVF或ICSI助孕治疗。40例PCOS(PCOS痰湿组20例和PCOS非痰湿组20例)和
微博作为一种新兴的网络交流媒体,自诞生以来就受到了广大网络用户的追捧,成为广大网民表达自身意愿的重要平台之一。微博平台具有灵活便捷的特性,这些特性为网民参与交流带
随着互联网技术和移动定位技术的快速发展,基于位置的服务在各个生产环节内得到了普遍的使用,特别是最近几年各种商业的LBS产品不断涌现,在丰富了用户的日常生活的同时也带动
图的k-路顶点理论在无线传感器网络和交通控制领域都有很重要的应用。近年来这一课题得到了国内外越来越多的学者广泛的研究。给定一个图G和一个正整数k,如果G中每一条顶点个
随着数字信息的爆炸式增长,我们迫切需要采用更为高效的方法来查找所需要的信息,这种情况不仅仅是体现在互联网领域中,由于台式计算机的数据存储量也随着硬盘存储能力的提高
高质量推荐理由自动挖掘的研究问题是指在以用户为中心的基础上,在当今数据信息爆膨的背景下,以用户尽量少参与的情况下提出的一种服务式推荐系统技术理论。高质量推荐理由自
纹理分析是图像处理领域的基础性研究课题。随着纹理分析在实际应用中的发展,不变性纹理分析在很多领域都有不可替代的位置。其中旋转不变性纹理分类则要求将不同角度的同种