论文部分内容阅读
高校教育数据挖掘是对高等学校大规模全样本教育数据的挖掘和分析的技术手段,具有能够辅助高校决策能力、管理效率和教学效果提升的高校治理价值。基于教育数据挖掘的技术手段,构建高校学生学业表现的数据模型,挖掘和利用高校教育数据的价值,有助于丰富学生发展理论和完善高校学生管理和学业支持体系。高校学生学业表现的研究具有可靠的实证研究的理论基础。本研究吸收了国内外关于高校学生学业表现的理论框架包括戴维·拉文的学业表现影响因素分析框架、阿斯廷的学生投入理论与I-E-O模型、乔治·库的学生投入理论与大学生成功要素模型,以及NSSE、CCSS、NCSS等调查研究方案的成果,构建出学校环境、社会及人口统计特征、学生个人特征、学生投入等四维度的高校学生学业表现影响因素分析框架。基于这个分析框架,对个案高校学生学业表现进行系统化的数据分析和数据挖掘,以揭示个案高校教育数据系统所存在的问题以及个案高校学生学业表现上所存在的问题。本研究采取个案研究的方法,重点在于揭示个案高校学生学业表现的独特情况和问题,但通过个案的分析,也有助于认识和分析具有普遍意义的高校学生学业表现的共同问题。本研究构建了整合型教育数据系统,采集教学管理信息系统数据以及学生学业表现的关联数据,进行数据的清洗、存储;运用描述性统计方法、方差分析方法分析学生学业表现的特征及差异性;分别从教学管理信息系统数据、整合型教育数据系统中的客观数据、整合型教育数据系统中的全部数据三种数据来源,从社会及人口统计特征、个人特征、学生投入等三个维度,运用多元线性回归、二元逻辑回归等传统统计方法构建回归模型,贝叶斯网络、决策树、人工神经网络、支持向量机等教育数据挖掘方法构建分类模型,并比较各模型有效性,提出高校学生学业表现预测模型的部署模式。研究结果显示,从社会及人口统计特征维度,学生学业表现存在性别差异、地区差异、民族差异。父母教育水平的不同不会带来学生学业表现的差异。从个人特征维度,学生学业表现也存在着科类差异;高考成绩与学生学业表现间存在一定的正相关;人格、学业自我效能、心理状态、体质测试、心理预警状态、学生干部和党员身份与学生学业表现都存在相关性。从学生投入维度,参加学术讲座、志愿服务、社团和利用图书馆资源与学生学业表现之间都存在着显著的正相关。就读体验与学生学业表现存在负相关。学业目标与学生学业表现呈正相关。通过对所构建的回归、分类共27个数据模型的比较发现,基于整合型教育系统中全部数据构建的模型最为有效。多元线性回归模型最高可解释学生学业表现65.4%的变异量;社会及人口统计特征维度变量的解释力约在13%到18%之间,个人特征维度变量的解释力在7%到20%之间,学生投入维度变量的解释力在10%到17%之间。二元逻辑回归模型最高预测正确率为69%。应用贝叶斯网络、决策树、人工神经网络、支持向量机等教育数据挖掘算法建立的12个分类模型,在运行时间、预测正确率、灵敏度等方面都存在差异。相对而言,贝叶斯网络分类模型和支持向量机分类模型的预测有效性要高于决策树分类模型和人工神经网络分类模型,贝叶斯网络分类模型的稳定性要高于支持向量机分类模型。通过自变量精简减少了 10个自变量,且未明显降低模型有效性。