基于密度网格的数据流聚类算法研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户：kqdnf

【摘要】

：

数据挖掘即为从大量数据中提取或“挖掘”知识。更具体地说,就是通过对数据进行深入分析,得到隐藏在数据背后的本质特性和普遍规律。聚类分析作为数据挖掘中的一种重要方法,

【作者】

：

米源

【机构】

：

西南交通大学

【出处】

：

西南交通大学

【发表日期】

：

2011年期

【关键词】

：

数据挖掘聚类分析数据流密度网格不均匀划分网格

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据挖掘即为从大量数据中提取或“挖掘”知识。更具体地说,就是通过对数据进行深入分析,得到隐藏在数据背后的本质特性和普遍规律。聚类分析作为数据挖掘中的一种重要方法,在各领域中有着广泛的应用。按照某种相似性度量准则,将物理或抽象对象的集合分成相似的对象类的过程称为聚类。通过聚类可以发现数据全局分布模式与对象属性之间有趣的相关性。　　近年来,随着计算机与通信技术的发展,在各行业当中产生了大量的数据流。这种数据具有以下特性:数据流速快,数量无限,动态变化,无法预测。由于以上种种特性的限制,在对数据流进行聚类分析时产生了众多的难题。已有许多学者对数据流聚类分析方法进行了大量的研究,但仍存在许多尚待改善的地方。　　基于密度与网格的聚类方法在各种聚类方法中有着计算速度快,可以发现任意形状的类等特殊优势,适用于数据流的聚类分析。对于基于网格与密度的算法而言,网格的密度阈值是一个至关重要的参数,在很大程度上影响了算法的聚类质量。而缺乏领域知识与数据先验知识的用户很难对此参数进行确定。本文采用平均密度的方法,通过对数据初始分布的网格密度进行统计,确定网格的密度阈值,并在数据流的处理过程当中进行动态的调整,以应对数据流动态变化的特性。聚类边界难以精确是基于网格的聚类方法中另外一个普遍存在的问题,其原因在于在基于网格的方法中通过舍弃数据的原有信息而只对网格进行操作。将数据信息进行适量保存,对类边界的网格进行不均匀划分,可以提高类边界的精确度。大部分基于网格的聚类算法在聚类的形成过程中采用随机的生成顺序,这会产生大量没有意义的小聚类,本文在聚类的生成过程中选取密度最高的网格单元作为起始点进行搜索,这有助于发现簇的原有结构。　　在上述研究的基础上,本文提出了一种基于D-Stream算法的改进数据流聚类算法。通过对人工数据与真实数据的实验分析与实验结果对比,表明算法能够获得良好的聚类质量。

其他文献

P2P流媒体系统中数据调度算法和播放缓冲区的管理

流媒体技术是指将连续的音视频信息压缩处理后放在网站的服务器上,用户可以在下载的同时观看或者收听节目,而不需要等到整个压缩文件全部下载到自己的终端才可以观看的网络传

学位

P2P流媒体播放缓冲区覆盖策略动态供需比请求成功率

基于叶片变形的植物叶脉可视化造型研究

虚拟植物是生物学、林学以及生态学和计算机图形学的交叉学科,在近些年有非常广泛的应用,并且受到了很多学者的关注。为了达到更好的虚拟效果,就必须对植物的细枝末节进行仿

学位

叶片变形二级叶脉叶脉变形锯齿三维可视化

无线传感器网络安全的研究

无线传感器网络是一种由大量的具有感知能力,计算能力,存储能力,数据处理能力,无线通信能力的低能耗的传感器节点所形成的一个多跳自组网络,网络节点之间通过协作地合作,监测

学位

无线传感器网络安全密钥分配入侵检测

智能优化算法研究及其应用

优化技术作为一个以数学为基础的重要的科学分支，一直受到人们的广泛关注，并对其它学科产生了重大影响。优化技术用于求解各种工程问题优化解的方法在诸多工程领域得到广泛应用

学位

智能优化算法人脸识别入侵检测支持向量机融合算法遗传算法属性约简算法

SUPA信控管理平台OAM机制的研究

在“三网合一”的发展趋势下,西南交通大学四川省网络通信技术重点实验室提出了以“面向以太网的物理帧时槽交换技术”(EPFTS—Ethernet-oriented Physical Frame Timeslot S

学位

单物理层用户数据交换平台体系结构面向以太网的物理帧S&M-平台OAM机制故障管理

工作流管理系统中安全机制的应用研究

随着信息技术的发展和在经济社会各领域不断深化的应用,信息技术对生产力以至于人类文明发展的巨大作用越来越明显,计算机网络及信息系统在企事业单位的运作中发挥着越来越重

学位

工作流安全机制访问控制树状粒度角色模型T&TG-RBAC

虚拟现实中碰撞检测的异构加速研究

近年GPU通用计算的发展为虚拟现实领域算法的改进提供了良好的条件,为并行化解决效率问题提供了机遇。CPU+GPU组成的异构计算环境更是为虚拟现实算法中实时性问题的解决提供

学位

碰撞检测异构编程层次包围盒图形处理器

基于声学的炉膛温度场重建仿真

大型燃煤锅炉中，炉膛温度的分布情况对于实现安全生产、高效燃烧及低污染排放具有重大实用价值和科学意义。根据少量的声波飞渡路径上的平均温度或者声波飞渡时间获得整个炉膛

学位

燃煤锅炉炉膛温度二维离散余弦变换神经网络重建算法粒子群算法

基于网络处理器的高性能路由器转发面的设计与实现

随着网络带宽需求的飞速增长以及多媒体通信技术的迅速发展,对网络传输起重要作用的路由器提出了更高的要求。转发处理技术是影响网络性能最重要的部件,而转发性能也是高端路

学位

路由器网络处理器微码单播组播

面向倒箱序列和贝位布局的双目标堆场调度方法

倒箱是影响集装箱码头物流系统作业成本和效率的关键因素之一，高效合理的堆场调度以减少倒箱数是目前集装箱领域研究的重点和热点问题，具有非常重要的实际应用价值。　　论文

学位

倒箱序列贝位布局双目标堆场调度遗传算法阈值接受算法混合启发式算法

基于密度网格的数据流聚类算法研究

其他学术论文