论文部分内容阅读
聚类是数据挖掘中重要的组成部分,是一种无监督的学习。聚类算法是将一组分布未知的数据进行分类,尽可能地使得同一类中的数据具有相同的性质,而不同类的数据其性质各异。近年来,随着人们对聚类技术的不断研究,聚类分析在机器学习、数据挖掘等很多领域已经成为人们进行数据分析和信息提取的研究热点。针对数值型数据的聚类已经进行了大量的研究,在实际应用中符号型数据仍然广泛存在,并且数值型数据的聚类算法不能直接应用于符号性数据,因此,符号性数据的聚类算法成为近年来的研究热点。本文利用图的相关理论对符号型数据聚类算法进行了深入研究,主要研究成果如下:(1)根据符号型数据的特征,结合图论的相关概念,提出了一个把符号型数据转化为无向图的转化模型,该模型有利于更好地研究符号型数据聚类算法,有一定实际价值。(2)在转换后的无向图基础上,通过图聚类领域的相关理论,给出了字符型数据中不同属性值之间相似性度量,并将该相似性度量应用于K-Modes算法,实验结果表明,该相似性度量优于0-1相似性度量。(3)设计并实现了一个基于符号型数据的聚类实验系统。该系统基于B/S结构,Apache2.2.4+PHP5.2.9+Mysql5.0技术开发而成,采用了最新的web2.0理念和技术。本系统具有稳定性,交互性,可扩展性等特点,该系统的建立为符号型数据聚类研究提供了一个横向比较平台,具有一定的应用意义。总之,本文以图聚类理论为研究手段,以符号型数据聚类为研究目标,提出了一种新的符号型数据相似性度量,并采用最新的技术和理念实现了一个符号型数据聚类算法实验系统,并在此基础上对UCI数据集进行了聚类实验分析,证明了改进的相似性度量方法能够提高聚类精度,具有一定的应用价值。