基于概率密度网格结构的不确定数据流聚类算法研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:wufala
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国内外学者对不确定数据流的聚类问题进行了大量的研究,但仍有不少问题尚待解决。大多数不确定数据流聚类算法不能在线得到精确的聚类结果;现有算法采用固定划分网格的方法,不能有效处理边界点;已有基于网格的算法,对概率密度网格单元缺少有效的存储结构。这些问题的研究对于不确定数据流的聚类分析以及在具体领域的应用都具有重要的意义。首先,为了实现对不确定数据流的在线聚类,提出了一种基于概率密度网格结构的不确定数据流聚类算法。该算法采用计数型滑动窗口,以反映不确定数据流的当前情况。同时,采用概率密度网格的存储结构,以使算法能够发现任意形状的簇。另外,还定义网格概率密度相似度,以实现初始化及更新聚类,提高算法的实时性。其次,为了更好地处理边界点问题,提出了一种基于可调整的概率密度网格结构的不确定数据流聚类算法。该算法采用可调整的概率密度网格技术来处理稀疏网格单元,以提高聚类质量。同时,还定义概率密度网格聚类特征用以存储不确定数据流的概要信息。另外,在概率密度的定义中引入时间衰减因子,以降低历史数据对聚类结果的影响。最后,为了有效存储网格单元,提出了一种基于概率密度网格树的不确定数据流聚类算法。该算法将一种树型概要数据结构引入到不确定数据流聚类算法中。首先把不确定元组按其属性值分配到一棵多叉树中,以消除空网格对聚类结果的影响。同时,设置时间间隔,以提高算法的执行效率。另外,还引入噪音阈值函数,以有效发现噪音叶子节点。本文通过实验对上述提出的算法进行验证,并与已有经典算法进行比较分析。
其他文献
随着数据挖掘技术的不断发展和应用,决策树作为数据挖掘技术中的一个分类问题的解决策略,也越来越受到重视,并被不断的研究。目前研究决策树的算法很多,比较著名的有ID3算法、C4.
粒子滤波算法作为一种基于蒙特卡罗方法和递推贝叶斯估计的新方法,在处理非线性、非高斯系统的参数估计和状态滤波方面具有独到的优势,自上世纪90年代重采样算法被提出后,该
内网信息安全的实质是对内网信息流和数据流进行全生命周期的有效管理,确保信息的保密性、可用性、完整性、可控性和不可否认性。现有的内网信息安全技术大多依赖于内部网络