数据挖掘聚类算法的研究及其在研究生培养质量评估中的应用

来源 :东南大学 | 被引量 : 0次 | 上传用户:mengqingwang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,各行业数据大量累积,目前人们尚未对这些海量数据进行足够深层次的分析应用,数据挖掘技术便在此背景下应运而生。本文在研究了数据挖掘中聚类算法的研究现状后,按运行方式将聚类算法分为串行聚类算法、并行聚类算法以及混合聚类算法三类,并对其核心思想均作了举例阐述,然后重点介绍了起源于仿生学的蚁群聚类算法。本文在对聚类算法做了理论上的研究后提出了一种改进的蚁群聚类算法,并且利用该算法对本校研究生信息数据库进行了挖掘实验。  本文主要做了以下几个方面的工作:  (1)深入研究了蚁群聚类算法经典之一的LF算法核心思想,并针对其在距离度量、收敛慢以及相似簇难以合并等方面的不足,提出了基于加权混合距离的自适应LF算法WALF。此算法采用加权混合距离作为新的距离度量,并且在聚类过程中引入了自适应机制实现对聚类过程的自调整。通过自适应机制蚁群可以随着聚类进行动态地调整邻域半径、归并相似的簇和在满足聚类要求时提前收敛算法。最后通过实验对比验证了WALF和LF算法的聚类质量和运行效率。  (2)根据研究生信息数据库的特征,在数据预处理阶段提出了两种数据抽取策略:外键关系查询法和公交车换乘算法。其中重点剖析了后者如何筛选出待聚类表的过程。该算法通过构造可达矩阵来计算感兴趣的属性最少需要通过哪些表能够关联,且可适用于数据规模较庞大的场景。  (3)在完成数据采集和数据清理后,本文采用计算待聚类表中各属性信息增益值并排序的方法,取信息增益值较大者去确定最终的待聚类属性,并将这些待聚类属性经数据变换后构造数据库视图。  (4)基于提出的WALF算法,本文以研究生信息数据库为数据源,经数据预处理后对学生综合素质进行聚类分析,完整地展示了数据挖掘的全流程。并最终通过对聚类结论分析评价后推测出一些有益信息,实验证明可以为高校教学多样化和提升培养质量评估能力提供可靠的决策依据。
其他文献
近年来,数字技术和计算机网络的迅猛发展,使数字多媒体(数字图像、数字音频、数字视频及三维计算机图像)的应用取得了惊人的进展,给人们的工作和生活带来了极大的便利,但是也正是
  本文针对人形目标识别的特点,在分析了传统的处理方法的基础上,提出了适于表征人形目标的特征数据,在此基础上,提出使用径向基函数网络完成特征的识别。  详细分析了常用的
无线互联、物联网等技术的发展促使嵌入式设备的广泛应用,智能手机、家电的出现对嵌入式设备的性能有了更高的要求,而Java的可移植性,安全性和兼容性,给J2ME的产生带来了巨大
传统的染色计算机配色在配色过程中引入大量的假设,并且计算过程复杂,配色误差较大。本文从尽量减少获取样品信息的操作复杂度和误差的角度,提出了基于染色的数字化计算机配
专利文献作为技术信息最有效的载体,囊括了全球90%以上的最新技术成果,对于知识产权的保护起着至关重要的作用。随着目前专利数量的不断增长以及专利侵权诉讼的日益频繁,专利
考试是教学的重要环节,对考试成绩进行分析和评价是教学质量管理的重要方面。随着高校教学改革的深入和计算机应用的普及使学分制成绩管理得到了很大的发展。但由于原有的对成
本文首先分析了影响系统响应时间的主要因素,指出提高性能的切入点;分析了实时系统对实时内核的要求,指出了Linux在实时性方面的不足并给出了一些Linux的实时化方案;最后从应用层
ARM7TDMI是一种高效,低功耗的RISC处理器,以该内核为核心的S3C44BOX是一款基于以太网应用的高性价比16/32位微控制器,非常适合嵌入式产品。本文的研究目标是实现基于S3C44BOX的μ
SoC(Systems-on-a-Chip)系统目前应用得越来越多。一个SoC系统可以包含不同的功能模块,例如数字电路、模拟电路、硬件专用电路、存储器、微处理器、数字信号处理器DSP(Digital
论文首先就PSTN与IP的互联互通在下一代网络发展过程当中扮演的重要角色入手,并结合现有解决方案的缺陷,提出中继服务器的模型。中继服务器首先可以作为信令网关,完成PSTN网络的