论文部分内容阅读
随着大数据时代的到来,各行业数据大量累积,目前人们尚未对这些海量数据进行足够深层次的分析应用,数据挖掘技术便在此背景下应运而生。本文在研究了数据挖掘中聚类算法的研究现状后,按运行方式将聚类算法分为串行聚类算法、并行聚类算法以及混合聚类算法三类,并对其核心思想均作了举例阐述,然后重点介绍了起源于仿生学的蚁群聚类算法。本文在对聚类算法做了理论上的研究后提出了一种改进的蚁群聚类算法,并且利用该算法对本校研究生信息数据库进行了挖掘实验。 本文主要做了以下几个方面的工作: (1)深入研究了蚁群聚类算法经典之一的LF算法核心思想,并针对其在距离度量、收敛慢以及相似簇难以合并等方面的不足,提出了基于加权混合距离的自适应LF算法WALF。此算法采用加权混合距离作为新的距离度量,并且在聚类过程中引入了自适应机制实现对聚类过程的自调整。通过自适应机制蚁群可以随着聚类进行动态地调整邻域半径、归并相似的簇和在满足聚类要求时提前收敛算法。最后通过实验对比验证了WALF和LF算法的聚类质量和运行效率。 (2)根据研究生信息数据库的特征,在数据预处理阶段提出了两种数据抽取策略:外键关系查询法和公交车换乘算法。其中重点剖析了后者如何筛选出待聚类表的过程。该算法通过构造可达矩阵来计算感兴趣的属性最少需要通过哪些表能够关联,且可适用于数据规模较庞大的场景。 (3)在完成数据采集和数据清理后,本文采用计算待聚类表中各属性信息增益值并排序的方法,取信息增益值较大者去确定最终的待聚类属性,并将这些待聚类属性经数据变换后构造数据库视图。 (4)基于提出的WALF算法,本文以研究生信息数据库为数据源,经数据预处理后对学生综合素质进行聚类分析,完整地展示了数据挖掘的全流程。并最终通过对聚类结论分析评价后推测出一些有益信息,实验证明可以为高校教学多样化和提升培养质量评估能力提供可靠的决策依据。