论文部分内容阅读
聚类分析作为数据挖掘中一种重要的方法,它能够根据数据对象之间的相似性对数据集中所有对象进行分组,使得被分配到同一个组(簇)中的数据对象之间具有较高的相似性,而分配到不同组(簇)中的数据对象之间具有较大的差异性。从机器学习的角度来看,聚类分析是一种无监督的学习方法,它按照一定的规则,从样本本身的内在关系出发,并在不知道与样本相关的任何背景知识的情况下,自动地根据数据之间的相似性进行分组或聚类。但在实际应用中,并不是所有机器学习过程都可以归为有监督学习或无监督学习中的一种,通常我们对数据对象的相关信息并不是一无所知,并且我们发现可以通过这些少量的相关信息推导出关于数据对象的类标签或者数据对象之间相互约束的信息。半监督聚类就是一种通过利用这些少量的监督信息与传统的无监督聚类算法结合来指导聚类过程,从而提高聚类结果精度,改善聚类算法性能的机器学习方法。
本文首先利用文献研究法对目前国内外学术界关于高斯混合模型聚类、半监督聚类以及基于高斯混合模型的半监督聚类的研究现状进行了归纳总结。然后通过比较学者之前的研究内容和研究方法,并结合本文的研究任务,从一个全新的角度提出了一个基于高斯混合模型的半监督聚类算法CGMM(ConstrainedGaussianMixtureModel)。该算法引入数据类标签和成对约束两种监督信息作为先验知识来协助指导聚类过程,基本思想是根据样本实例属于混合高斯成分的概率γ(Zki)和成对约束的组合来分配数据点。最后,本文将提出的CGMM算法同传统无监督的高斯混合模型聚类算法GMM(GaussianMixtureModel)、半监督学习算法Boostcluster(BoostingClustering)以及有监督的分类算法LR(LogisticRegression)进行对比实验,采用聚类结果的准确率作为实验结果的评价指标,考察了监督信息量的多少对聚类性能的影响,并探索了本文算法的聚类性能,得到该算法具有可行性和有效性的结论。
由于在之前的一项研究工作中,我们需要分析Yelp.com这个网站上的那些对社交敏感的用户具有哪些显著特征。我们所获得的用户数据集中只有部分数据被贴上了用户是否社交敏感的标签,而大部分的数据是没有被标记的,于是使用本文提出的CGMM算法成功地为Yelp数据集中未标记的用户数据全部贴上标签,且在该标注好的数据集上实施LR算法,发现训练好的模型和数据能较好地拟合,最终根据LR模型的系数为具有社交影响力的Yelp.com网站用户建立了用户画像。通过该应用实验,发现CGMM算法能够成功的为有部分标签的数据集进行标注,证明了该算法的实用性和有效性。
本文首先利用文献研究法对目前国内外学术界关于高斯混合模型聚类、半监督聚类以及基于高斯混合模型的半监督聚类的研究现状进行了归纳总结。然后通过比较学者之前的研究内容和研究方法,并结合本文的研究任务,从一个全新的角度提出了一个基于高斯混合模型的半监督聚类算法CGMM(ConstrainedGaussianMixtureModel)。该算法引入数据类标签和成对约束两种监督信息作为先验知识来协助指导聚类过程,基本思想是根据样本实例属于混合高斯成分的概率γ(Zki)和成对约束的组合来分配数据点。最后,本文将提出的CGMM算法同传统无监督的高斯混合模型聚类算法GMM(GaussianMixtureModel)、半监督学习算法Boostcluster(BoostingClustering)以及有监督的分类算法LR(LogisticRegression)进行对比实验,采用聚类结果的准确率作为实验结果的评价指标,考察了监督信息量的多少对聚类性能的影响,并探索了本文算法的聚类性能,得到该算法具有可行性和有效性的结论。
由于在之前的一项研究工作中,我们需要分析Yelp.com这个网站上的那些对社交敏感的用户具有哪些显著特征。我们所获得的用户数据集中只有部分数据被贴上了用户是否社交敏感的标签,而大部分的数据是没有被标记的,于是使用本文提出的CGMM算法成功地为Yelp数据集中未标记的用户数据全部贴上标签,且在该标注好的数据集上实施LR算法,发现训练好的模型和数据能较好地拟合,最终根据LR模型的系数为具有社交影响力的Yelp.com网站用户建立了用户画像。通过该应用实验,发现CGMM算法能够成功的为有部分标签的数据集进行标注,证明了该算法的实用性和有效性。