论文部分内容阅读
信息时代数据量激增,有海量的数据需要加以分析和利用,数据聚类作为一种高效的数据分析方法得到广泛应用。由于传感器异常、数据传输不稳定、数据存储不完善等因素都可能造成不完整数据,即数据属性缺失的不完整数据集,传统的不完整数据处理方法如均值填补、期望估值填补、差值填补等仍不能达到精确聚类的要求。因此针对不完整数据的聚类分析有着很高的实际意义和应用需求,成为国内外广大学者的研究重点。首先,针对不完整数据属性缺失,无法直接进行模糊C均值(FCM)聚类问题,本文提出改进型不完整数据模糊聚类算法(IVAEGAN-FCM)。为提取更多的有效信息,生成模型生成更精确的数据,将VAE与GAN网络结构进行融合,VAE作为GAN的生成器生成数据,GAN的判别器结合真实数据对生成模型进行判别并将差值反馈给生成器,得到IVAEGAN模型。根据最近邻规则对不完整数据构建最近邻样本集,以最近邻样本的属性中值作为特征标记,将特征标记作为条件变量引入生成器模型,构造条件型生成器,提高模型估值准确性。结合Warristen距离对IVAEGAN损失函数进行加权重构,提高模型收敛速度与稳定性。本文通过不完整数据集中完整的数据训练IVAEGAN模型,从而得到整个数据集的样本属性分布,进而利用训练完成的模型对不完整数据的缺失属性进行估值填充得到完整数据集,对完整数据集进行模糊聚类分析。其次,不完整数据集经过IVAEGAN估值填充得到数值型的完整数据集。但是,估值数据仍会存在一定误差,在模糊理论中数值型数据不能够准确的描述不完整数据的不确定性。针对此问题,本文提出IVAEGAN区间型估值的不完整数据模糊聚类算法(IVAEGAN-IFCM)。在估值填补过程中,将得到的完整数据属性真实值与估计值的平均误差绝对值作为估值的区间大小,同时结合近邻样本的属性范围对估值区间进行约束,将数值型估值转化为区间型估值。为提高每个样本估值区间的准确性,对每个样本局部区域内的近邻样本密度进行计算,并作为动态控制区间大小的区间因子。将完整的数据也转化为区间型数据,从而得到完整的区间型数据集,然后对区间型数据集进行区间型模糊聚类分析。最后,对本文算法进行仿真试验,通过UCI数据集以及人工数据集验证算法有效性。实验结果表明,通过IVAEGAN模型对不完整数据进行估值填充得到完整的数值型数据集,聚类结果与对比方法相比准确率提高。且采用区间估值聚类的结果比数值估值聚类结果更准确,鲁棒性、泛化性更好。