论文部分内容阅读
聚类分析是数据挖掘和机器学习领域中的研究热点之一,其目的是根据物理或者抽象对象间的相似性将数据对象划分成不同的类别,使同一个聚类形成的簇中的对象具有较高相似度,不同簇中的对象相似度较低。聚类技术在图像分割、文本分析、空间数据知识挖掘以及其他诸多领域都有广泛的应用前景。 聚类算法主要分为基于划分的方法、基于层次的方法、基于密度的方法、基于模型的方法和基于网格的方法等等。基于划分的方法简单有效,易于操作,但由于算法需要预先指定聚类数目,极大地影响了原始数据聚簇的形态分布,同时算法还存在聚类结果对初始簇类中心选择敏感、对噪声适应性差、不能发现任意形状的簇等缺点。基于密度的方法主要优点是具有良好的可扩展性,可以发现任意形状的簇,对噪声数据不敏感,但是聚类结果严重依赖于用户参数的合理选择。 因此,本文结合数据场理论,利用数据场反映数据间多对一作用关系的优势,研究了基于数据场的聚类算法。主要工作内容包括以下三个方面: (1)结合数据场理论,依照簇类中心被具有较低势值的邻居点包围,且与具有更高势值的其它数据对象有相对较大的距离的规律,计算每个数据对象的势值和距离值,作出势值与距离的分布图,并从中确定数据的聚类中心,不需要预先设置聚类中心的数量,同时能够自动聚类中心的位置。等聚类中心确定后,将其余点按到最近邻的更高势值对象的最小距离进行划分,只需要一次划分就可以完成整个聚类过程,获得最终结果。通过与K-means算法、DBSCAN算法和数据场聚类算法的性能比较,结果表明提出的算法具有较好的聚类结果。 (2)为了解决传统聚类算法对混合属性数据聚类时存在结果不稳定、随机性大、准确度不高等缺陷,对现有算法进行扩展,提出了基于数据场和属性重要性的混合属性数据聚类融合算法(DF_SPCA),根据获取的数据对象信息,利用欧式距离计算数值属性相似性,对于分类属性,根据分类属性间的共现概率,分析分类属性的重要性,以此计算分类属性间的距离,采用现有的数据场聚类算法对数值属性和分类属性分别获得聚类成员,采用基于交集的融合策略获得最终的聚类结果。通过与K-prototypes算法、K-modes算法以及SBAC算法的性能比较,结果表明提出的算法具有较好的聚类结果。 (3)为了探索DF_SPCA算法的实际应用能力,研究了如何利用DF_SPCA算法基于基站定位数据进行商圈分析。通过基站得到定位数据,将数据规约并变换成需要利于挖掘商圈信息的数据形式,主要分析基站覆盖范围的人流量及人均停留时间等重要特征,利用聚类算法对定位数据进行聚类分析,能够识别出不同的商圈,并分析了不同的商圈具有的典型特征及其消费习性,以便于研究潜在顾客的分布以制定适宜的商业对策。 本文结合数据场理论,为解决传统聚类算法需要预设聚类个数,聚类中心难以确定以及参数敏感性等问题提供了新的思路,利用融合策略处理混合属性数据,最后对基站定位数据进行商圈分析的研究。