基于稀疏表示的混合属性数据聚类关键技术研究

来源 :北京科技大学 | 被引量 : 7次 | 上传用户:jiaojiao82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是协助管理决策的最重要工具之一,随着数据挖掘的应用范围不断扩大,数据挖掘所处理的数据逐渐由单一的数值型或者分类型数据逐渐呈现出混合属性类型。对混合属性数据的挖掘研究是一个热点问题,其中数据聚类是属于其中的重要内容。传统的聚类算法只是针对单一的数值属性或者分类属性,而越来越多的研究显示,大多数真实数据是以混合属性呈现的,而这使得大多数传统聚类算法处理起来相对困难。所以,设计出能够处理混合属性数据的高效的聚类算法已成为聚类分析中一个很有吸引力的问题。本文针对混合属性数据聚类的相关问题,研究基于稀疏表示的数据聚类方法,具体研究包括如下内容:(1)针对未标记混合属性数据的缺失问题,研究提出了基于稀疏表示的混合属性数据填补方法。通过将局部约束线性编码和局部约束稀疏表示引入到K最近邻字典构建过程,更好的保留了数据的局部结构特征,同时一定程度上解决了相似对象难于确定的问题。将提出的填补方法应用在六个混合属性数据集中,实验结果验证了该算法在填补效果上的优势。(2)针对混合属性数据的相似性度量变得难于计算导致的聚类困难,提出了基于K-SVD的混合属性数据谱聚类算法。该算法通过将稀疏表示中的字典学习过程引入谱聚类中,得到带有判别信息的稀疏系数矩阵,并据此作为谱聚类算法中的权重矩阵输入,这样既能克服数据点间距离难于计算的劣势,又能发挥谱聚类简单高效的优势。利用真实数据的实验验证了该方法在聚类准确率上面的优势。(3)针对混合属性数据的簇中心初始化问题,研究提出了基于密度的簇中心初始化方法。该方法通过将密度的概念引入,并据此选择簇中心,一定程度上避免了以随机的方式选择簇中心导致出现不稳定的聚类结果。通过配合前面提出的基于K-SVD的混合属性数据谱聚类算法进行实验,实验结果表明该方法在处理混合属性数据集表现出了一定的优越性。
其他文献
学位
学位
学位
学位
学位
学位
学位
学位
学位
学位