改进型VAEGAN的不完整数据模糊聚类算法研究

来源 :辽宁大学 | 被引量 : 2次 | 上传用户:winningking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代数据量激增,有海量的数据需要加以分析和利用,数据聚类作为一种高效的数据分析方法得到广泛应用。由于传感器异常、数据传输不稳定、数据存储不完善等因素都可能造成不完整数据,即数据属性缺失的不完整数据集,传统的不完整数据处理方法如均值填补、期望估值填补、差值填补等仍不能达到精确聚类的要求。因此针对不完整数据的聚类分析有着很高的实际意义和应用需求,成为国内外广大学者的研究重点。首先,针对不完整数据属性缺失,无法直接进行模糊C均值(FCM)聚类问题,本文提出改进型不完整数据模糊聚类算法(IVAEGAN-FCM)。为提取更多的有效信息,生成模型生成更精确的数据,将VAE与GAN网络结构进行融合,VAE作为GAN的生成器生成数据,GAN的判别器结合真实数据对生成模型进行判别并将差值反馈给生成器,得到IVAEGAN模型。根据最近邻规则对不完整数据构建最近邻样本集,以最近邻样本的属性中值作为特征标记,将特征标记作为条件变量引入生成器模型,构造条件型生成器,提高模型估值准确性。结合Warristen距离对IVAEGAN损失函数进行加权重构,提高模型收敛速度与稳定性。本文通过不完整数据集中完整的数据训练IVAEGAN模型,从而得到整个数据集的样本属性分布,进而利用训练完成的模型对不完整数据的缺失属性进行估值填充得到完整数据集,对完整数据集进行模糊聚类分析。其次,不完整数据集经过IVAEGAN估值填充得到数值型的完整数据集。但是,估值数据仍会存在一定误差,在模糊理论中数值型数据不能够准确的描述不完整数据的不确定性。针对此问题,本文提出IVAEGAN区间型估值的不完整数据模糊聚类算法(IVAEGAN-IFCM)。在估值填补过程中,将得到的完整数据属性真实值与估计值的平均误差绝对值作为估值的区间大小,同时结合近邻样本的属性范围对估值区间进行约束,将数值型估值转化为区间型估值。为提高每个样本估值区间的准确性,对每个样本局部区域内的近邻样本密度进行计算,并作为动态控制区间大小的区间因子。将完整的数据也转化为区间型数据,从而得到完整的区间型数据集,然后对区间型数据集进行区间型模糊聚类分析。最后,对本文算法进行仿真试验,通过UCI数据集以及人工数据集验证算法有效性。实验结果表明,通过IVAEGAN模型对不完整数据进行估值填充得到完整的数值型数据集,聚类结果与对比方法相比准确率提高。且采用区间估值聚类的结果比数值估值聚类结果更准确,鲁棒性、泛化性更好。
其他文献
我国土壤盐渍化愈来愈严重,其主要分布的位置在华北、西北及沿海地区,最突出的是宁夏地区。本文以宁夏石嘴山市惠农区燕子墩乡为例,分析该区域降雨蒸发前后,水盐运移的动态变
目的:①比较所有研究对象及各组间CAP与PAP的关系;及其在新疆维吾尔族、汉族中所有研究对象及各组间是否有差别。②探讨尿微量蛋白与CAP及PAP的关系,及其在维族、汉族间的差
堆石料是土木、水利等工程建设中普遍使用的材料,受颗粒破碎及排列、级配、石料成因、渗透性等因素影响,其强度与变形特性描述非常复杂。堆石料的强度变形特征,不仅受其宏观
近年来计算机的计算能力不断提高,卷积网络被广泛的应用到图像处理任务之中,计算机视觉领域中各项视觉任务的检测性能得到了提高。目标检测任务是计算机视觉领域的重要任务之
随着社交网络的不断发展,社区发现已经成为复杂网络领域的一个重要的研究热点。若干个社区组成了一个完整的网络,在社区的内部,节点之间的连接相对紧密,而社区与社区之间节点
在文献中,有关影响回指消解的因素探究仍无一致定论。有些学者认为回指消解与先行词有关(Caramazza et al.,1977;Nicol et al.,1989;赵冬梅、刘志雅,2006;李榕,2016;吴明军、
社交事件发布及参与平台越来越受到人们的关注,这种线上与线下相结合的全新方式不仅具有传统的线上交流功能,而且将网络社交放到了现实,其主要功能是为用户提供一种社交事件
随着工业生产设备的自动化水平不断提高,现代工业过程更趋向于集成化、复杂化和智能化。如何准确及时地排除生产过程中的故障,对于保证生产安全至关重要。近几年,传感器技术
近年来,随着定位技术的发展和附有GPS功能的智能设备的普及产生庞大规模的轨迹数据,同时,随着大数据处理方式的不断发展进步还有人们不断变化的市场需求,人们逐渐可以发现并
人工智能和计算机视觉等学科的飞速发展为数字图像处理的相关研究与应用提供了更为广泛的支撑。图像分割作为数字图像处理的重要研究之一,是模式识别、目标检测等领域的重点