论文部分内容阅读
聚类分析是一种根据数据隐含类别信息对数据进行无监督的聚类算法。文章在聚类算法基础上关于定量属性变量聚类中心采用均值,关于定性属性变量中心定义从以下两个方法进行讨论:方法一是利用众数计算定性属性变量的聚类中心;方法二是在第一个方面的基础上利用每一个定性属性变量在其中一个类在各个属性值出现的频率值作为定性属性变量的模糊聚类中心。在对象与类别相似性度量方面,方法一中定量属性变量采用欧式距离度量相似度,定性属性变量采用0-1匹配度量相似度,最后两者的相似度利用协调参数加权求和作为最终两个样本之间相似性度量距离,参数根据实际情况而确定,文章根据定性属性变量相似性度量方式与定量属性变量相似性度量方式之间的差异所确定的为0.5;方法二是定性属性变量在模糊中心定义聚类中心的基础上,与定量属性变量度量方式都是采用欧式距离,最后将两种距离加和作为样本之间的距离。在方法二的基础上针对目标函数的权重建立了基于信息熵的混合数据聚类分析算法,使得在目标函数权重计算方面更多的考虑到各个属性的分布情况。在聚类分析基础上所改进的三种聚类算法在文章中利用某市中小学生数据进行实证分析,从结果可以观察到基于信息熵的混合数据聚类分析算法的类内离差平方和达到最小值,具有最好的聚类效果。针对基于信息熵混合数据聚类分析最终所确定的学生典型情况,文章基于原始数据所建立的因子分析模型所提取的8个旋转因子能够清晰解释原有55个定量属性变量所隐含的信息,结合最终通过因子分析所得到的因子值系数对各个类别学生的典型情况计算因子得分。因子得分就是各个因子变量在各个类别值上的具体值。利用各类别定性属性变量的聚类中心与定量属性变量聚类中心的因子得分值建立评价系统,发现学生在学习以及生活中所遇到的问题,并针对性地对学生的发展状况给与一定的指导。