论文部分内容阅读
不确定数据流在许多应用中起着关键作用,作为一个重要的研究课题,在学术界引起了众多研究者的关注。而位置不确定性作为一种新的不确定数据类型,在物联网高速发展的今天,拥有极高的研究价值。该论文针对当前位置不确定数据流聚类算法存在的问题,主要进行了如下研究工作:
1.提出了位置不确定数据模型。在不确定数据流聚类算法的研究中,位置不确定性是一种新的不确定数据类型,已有的不确定数据模型不能很好地描述和处理位置不确定性数据。鉴于此,提出基于联系数的位置不确定数据模型、联系距离函数、微簇密度可达性等主要概念。
2.提出了基于联系数的位置不确定数据流距离聚类算法——UCNMicro。使用了针对位置不确定性的不确定性数据表达新模型,定义了不确定数据对象间的联系距离,运用基于密度峰值思想的初始化策略,使用当前簇和候选簇构成的两层簇窗口,并动态调整窗口结构。最后分析了算法的计算复杂性为线性复杂性,实验结果表明,UCNMicro算法的聚类处理时间和聚类结果在聚类精度方面优于已有算法,具有较快的聚类效率和较好的聚类精度。
3.提出了基于联系数的位置不确定数据流密度聚类算法——UCNStream。UCNStream算法采用了在线/离线两级处理框架,使用基于密度峰值思想的初始化策略,定义了新的可动态维护的微簇聚类特征向量。利用衰减函数和微簇删除机制对微簇进行在线维护,准确地反映了数据流的演化过程。最后,分析了算法的计算复杂性,并通过对实际数据集上的实验与几种优秀的聚类算法进行了比较,实验结果表明,UCNStream算法具有较高的聚类纯度和处理效率。
4.提出了基于联系数的位置不确定数据流群智能聚类算法一一UCNFlocking。将群智能的思想运用到不确定数据流聚类中,在UCNStream算法的基础上,利用和修正了群聚行为的三个原则,将其用于聚类分析。本文将群聚行为拓展到多种群的聚类,通过空间映射和群智能的加入,减少了运算量。实验表明,基于多种群智能的位置不确定数据流聚类算法,有效提高了计算效率,实现了可分布式处理的在线实时聚类,算法具有可以发现任意形状簇且对噪声数据不敏感的优点。
论文通过将联系数的相关理论灵活运用到位置不确定数据描述上,成功构建了新的不确定数据模型。在此基础上,提出三个具体算法,分别采用基于距离、基于密度和基于群智能的聚类方式,解决位置不确定数据流的球状簇聚类、任意形状簇两级处理框架聚类和在线实时任意形状簇的聚类问题。与已有的不确定数据模型和其基础上的不确定数据流聚类算法相比较,文中的算法更有效地利用了数据对象的空间位置关系,对位置不确定数据流的数据挖掘研究有实际意义。
1.提出了位置不确定数据模型。在不确定数据流聚类算法的研究中,位置不确定性是一种新的不确定数据类型,已有的不确定数据模型不能很好地描述和处理位置不确定性数据。鉴于此,提出基于联系数的位置不确定数据模型、联系距离函数、微簇密度可达性等主要概念。
2.提出了基于联系数的位置不确定数据流距离聚类算法——UCNMicro。使用了针对位置不确定性的不确定性数据表达新模型,定义了不确定数据对象间的联系距离,运用基于密度峰值思想的初始化策略,使用当前簇和候选簇构成的两层簇窗口,并动态调整窗口结构。最后分析了算法的计算复杂性为线性复杂性,实验结果表明,UCNMicro算法的聚类处理时间和聚类结果在聚类精度方面优于已有算法,具有较快的聚类效率和较好的聚类精度。
3.提出了基于联系数的位置不确定数据流密度聚类算法——UCNStream。UCNStream算法采用了在线/离线两级处理框架,使用基于密度峰值思想的初始化策略,定义了新的可动态维护的微簇聚类特征向量。利用衰减函数和微簇删除机制对微簇进行在线维护,准确地反映了数据流的演化过程。最后,分析了算法的计算复杂性,并通过对实际数据集上的实验与几种优秀的聚类算法进行了比较,实验结果表明,UCNStream算法具有较高的聚类纯度和处理效率。
4.提出了基于联系数的位置不确定数据流群智能聚类算法一一UCNFlocking。将群智能的思想运用到不确定数据流聚类中,在UCNStream算法的基础上,利用和修正了群聚行为的三个原则,将其用于聚类分析。本文将群聚行为拓展到多种群的聚类,通过空间映射和群智能的加入,减少了运算量。实验表明,基于多种群智能的位置不确定数据流聚类算法,有效提高了计算效率,实现了可分布式处理的在线实时聚类,算法具有可以发现任意形状簇且对噪声数据不敏感的优点。
论文通过将联系数的相关理论灵活运用到位置不确定数据描述上,成功构建了新的不确定数据模型。在此基础上,提出三个具体算法,分别采用基于距离、基于密度和基于群智能的聚类方式,解决位置不确定数据流的球状簇聚类、任意形状簇两级处理框架聚类和在线实时任意形状簇的聚类问题。与已有的不确定数据模型和其基础上的不确定数据流聚类算法相比较,文中的算法更有效地利用了数据对象的空间位置关系,对位置不确定数据流的数据挖掘研究有实际意义。