论文部分内容阅读
随着信息化技术在教育领域的推进以及学生数量在高校的增长,相应的教育系统中也存储着海量的教育数据,然而大量教育数据仅仅停留在存储、查询及简单的统计阶段,如何利用其中海量的教学数据来挖掘出背后潜在的联系和规律,发现实际教学中存在的问题,以期来指导教学目标,改进教学方法,促进学生发展,将这些来自各种教育系统的原始数据转变为信息、知识,并为教育决策、教育优化服务,以期来指导教学目标,改进教学方法,促进学生发展是本文研究的出发点。教育数据挖掘致力于挖掘来自教育系统的独特数据,更好的理解学生与老师所在的教育系统,并更好的服务于教学任务中。教育数据挖掘是解决教育信息资源浪费的可行有效的方法,一方面能向学习者推荐有助于改进他们的学习活动、教育资源和学习任务,推荐好的学习经验等,另一方面也能向教育工作者提供教学反馈信息。学生成绩既是学生对知识掌握程度高低的反映,也是评估老师教学水平高低的重要因素。通过对学生成绩的分析,从成绩数据背后所隐含的各类信息、关联中挖掘出影响成绩的因素,给教学提供反馈信息,可以检查教师教学效果,总结教学经验,促进教师改进教学内容和方法,提高教学质量;可以检测学生掌握知识质量、技能熟练程度,发现学习中存在的问题;可以指导教学计划,改善学校教育管理系统,提高利用率。因此,数据挖掘技术在教育系统中有着不可替代的重要作用,对教育发展有着深远的意义。本文研究并应用了数据挖掘的相关知识,主要工作包括三方面内容。一、确定《计算机基础》的数据为基础数据源,并根据数据预处理的过程,对成绩数据进行了清洗、集成、转换和规约,为后续的数据挖掘做准备。二、进行数据的K-means聚类分析,基于初始聚类中心优化和离群值预处理的K-means算法,获得了对数据集的聚类的结果对成绩数据重新分类,与传统基于值的分区对比,更能体现数据特性,结果更加客观,合理。三、根据聚类分析的结果,采用R-C4.5决策树算法对学生的表现进行了分析,与C4.5相比,极大简化分支并减少碎片信息。同时根据决策树获得了分类规则并提出了相应的改进措施和教学建议,为教师有针对性的教学提供合理建议,为学生改进学习方法提供有利依据,同时为学校教学方案的设计与改进提供参考信息。数据预处理是数据挖掘过程中不可或缺的一部分,数据质量的好坏直接影响数据挖掘结果的质量。针对计算机基础成绩数据的预处理就是对其中包含有噪声、不完整或者不一致的数据进行删减、补充、合并等操作来提高数据对象的质量,从而提高整个数据挖掘过程的质量。分析数据来源于学校外国语学院计算机基础学生考试成绩,包括学生基础信息如学号、院系、专业等,考试成绩信息包括各项考试成绩。数据预处理过程包括数据清洗、数据集成、数据转换和数据规约。数据清洗:对属性缺失过多或没有参加考试记录进行删除,对缺失较少,采用均值填充处理,同时为了减小数据维度,须删除无用的数据项,例如学号及学院等信息。数据集成:主要删除重复记录来解决数据冗余问题。数据转换:原始数据信息包含各项成绩及个人信息等十多项属性,为了方便研究,对原始数据进行属性构造,主要考察“基本操作”、“office操作”、“网络使用操作”和“理论知识”四方面的属性。同时考虑到后续离散化操作,将数据进行标准化处理得以更好的分析。最后进行数据离散化:根据传统基于值的划分方法,对成绩数据进行划分为A、B、C和D四个分类等级。处理后的数据简洁、清晰、明了,为后续数据挖掘做好充足的准备。受课程难易、评分标准、题目难度以及学生专业背景多样化等多方面因素的影响,学生成绩分布具有不稳定性,同一门课程在不同学院,成绩分布也会有很大的差异,同时不同的教师有着不同的讲课风格,对同一批学生的教学效果也大相径庭。分析传统的基于值划分的方法对成绩数据进行划分的结果(课程成绩在[85,100]内为A类,在[75,85)内为B类,在[60,75)内为C类,在[0,60)内为D类),各个属性分布在各个等级的人数有较大差异,学生在各个区间并非均匀分布,同一科目的不同分类上学习成绩分布有一定差异,成绩分布有明显差异。在对数据进行离散化时,传统基于值的划分方法由于成绩分布存在的不稳定性,容易导致数据部分过度集中,部分过度分散,而不能反映成绩的真实特点。故本文采用张甜[26]提出的基于初始聚类中心优化和离群点预处理的K-means算法对计算机基础成绩数据进行离散化处理,根据得到的聚类中心将成绩数据分成不同的簇类,从而让离散化结果分布更加科学和合理。考虑到传统的K-means算法初始聚类中心点很敏感,在随机选取的初始聚类中易陷入局部最小解的窘境,而离群点对最后成绩也会有一定的影响,为了保证挖掘过程的严谨性,对离群点数据进行预处理操作。改进的K-means算法首先提取出离群样本点,然后选择初始聚类中心,用K-means算法完成聚类分析,最后将离群样本点划分进去。同时考虑到学生成绩分布特点,常常分为优、良、中、差四类,且在聚类实验中k=4将各科成绩分成四类,聚合程度较高,故预先设置k=4。将K-means聚类分析算法应用到《计算机基础》的学生成绩数据中,得到各类别的聚类中心点,得到各属性类别划分依据。根据值划分的总成绩分类为A、B、C、D等级比例分别为1 1.16%,36.48%,39.91%,12.45%,可以发现学生成绩主要集中在B跟C两个区域,集中在一个较小的区域,对两端特别好A等级跟很差的D等级人数占比都很少。根据聚类分析划分后总体A、B、C、D等级比例分别为16.31%,24.03%,30.47%,29.18%,可以看出在划分的课程中,基于值的划分的偏差比基于K-means的高,说明基于值划分后不同类别中成绩数量差别较大,而基于初始聚类中心优化和离群点预处理的K-means算法划分得到的结果,各数据点数量差异较小,每个数据段中数量更均匀,划分效果也更好。因此K-means算法更能客观合理的体现成绩数据的特点,分布更加均匀,挖掘结果更加科学,有质量。决策树算法是数据挖掘中的经典算法,具有可读性强、分类速度快等特点,通过树的形式将数据逻辑特征展现出来,结构清晰,层次分明,过程简单直观。决策树C4.5算法采用信息增益率作为特征选择准则来提高准确率,但在构建很小的一棵树的时候,C4.5算法会陷入严重的碎片问题,重复的将数据划分为越来越小的部分,这在我们构建便于分析又合理可靠的学生成绩课程决策树时存在缺陷。因此针对C4.5决策树的不足,针对学生课程成绩考量,考虑简化决策树,构造一棵简单的树,便于老师分析、提取关键信息,刘鹏[20]等人提出了一种健壮有效的决策树改进模型:R-C4.5决策树模型。该模型在分枝过程中,合并信息熵值较高的部分分枝,即通过合并对分类贡献较小的分枝来避免碎片问题,其余思想遵循C4.5决策树算法。在实际决策树构建过程中,若选择的某个分裂属性分枝中存在熵值过大即对分类贡献太少的分支,可以通过采用R-C4.5算法思想将这类分枝合并,并重新计算合并后的样本子集的熵,从而选出最优测试属性。这样做可以有效的减少无意义的分枝。将R-C4.5决策树算法应用到计算机基础的学生成绩分析中,挖掘成绩之间有价值的规律。分析哪些属性对成绩影响很大,用于指导学生需要加强训练的对象,同时指导教师更好的调整教学计划有针对性的帮助学生提高计算机水平。R-C4.5算法通过对部分样本子集的合并,减少了样本可能取值的种类,从而避免C4.5算法中的过多无意义的分支,减少产生碎片的可能。将同样的数据样本应用到C4.5模型与R-C4.5决策树模型进行有效性对比分析,结果显示R-C4.5决策树深度为3,叶子节点数7,而传统C4.5算法得到的决策树深度为4,叶子节点数12,R-C4.5决策树算法得到的叶子节点数更少,表明R-C4.5算法生成的决策树模型比C4.5算法相比更加健壮。同时对得到的决策树进行分类规则提取对学生成绩进行分析并给出相应的教学建议,用以改进教师日常教学方法,有针对性的指导学生,促进学生能力的提高,尽可能提高学生成绩。