论文部分内容阅读
聚类分析是数据挖掘的重要研究课题,它是数据挖掘研究的重要内容、手段和工具,因而成为一个被不断探索并充满创新的研究主题。离群知识发现是近年来倍受数据挖掘研究者关注的一个新兴研究领域,它研究数据中少数异常而新颖的数据分布模式,离群知识发现在入侵检测、风险控制等领域有着广泛应用。
近年来,随着卫星遥感、X光扫描、分子生物、高能物理研究等技术的发展,大量的数据被存储在数据库中,这些数据具有维度高、数据分布稀疏、噪声数据多的特点,这就使得面向高维大规模数据集的数据挖掘研究成为关键。探索并构造具有高性能、高效率的新算法是解决高维空间大数据集挖掘问题的有效途径,也是本文开展聚类分析和离群知识发现研究的着眼点和出发点。
论文分析了高维空间大数据集数据分布的特点,以及高维空间大数据集挖掘所需解决的问题,对已有的聚类分析及离群知识发现算法的优缺点进行了分析,针对大数据集的生成方式,提出分布式挖掘、增量式挖掘、数据流挖掘等解决方法,提出了一系列面向高维大规模数据集的有效的聚类及离群知识发现算法。
针对高维空间数据聚类可能出现的数据分布稀疏、噪声数据多、聚类参数设定困难以及“差距趋零”等问题,在DBSCAN算法的基础上,提出一种k邻域局部密度聚类算法k-PCLDHD及其优化算法k-LDCHD,算法既保持了DBSCAN算法快速高效的特点,又有效地提高了DBSCAN算法对高维空间数据聚类的精度;在分布式聚类挖掘方面,提出了分布式聚类算法k-DCBIP,算法结合向量内积知识,对数据集进行预处理,并在每次迭代中,对每个数据点的归属作预判断,算法可以有效地解决大数据集聚类问题;进一步,提出基于DBSCAN的分布式密度聚类算法DDBSCAN,算法具有DBSCAN算法的能够发现不同形状聚类、对噪声数据不敏感、效率高的优点,同时,算法还弥补了DBSCAN算法在扩展性和对高维数据适应性上的不足。最后,论文对数据流挖掘方法进行探讨,将数据流离群知识发现与数据流聚类分析问题对应起来,提出了基于k均值分区的适用于高维数据流挖掘的密度聚类算法CLUSMD以及离群点检测算法DSOKP。
在研究过程中,针对所构造的各种算法进行了大量的实验验证,理论分析和实验结果验证了算法的合理性和有效性,所提出的算法在综合性能上均明显优于现有的相应算法。