基于特征工程的MOOC辍学预测研究

来源 :江西财经大学 | 被引量 : 0次 | 上传用户:zpbaqq1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
MOOC(massive Open Online Course)全称为“大规模在线开放课程”,因其资料共享性、课程开放性、教育自主性和终身性等传统教育行业欠缺的优质特色吸引了全球数以万计的学习者加入。此外它不受时间、地点限制的特性,实现了以学生自学为主的学习形式,更让优质的教学资源得到了充分利用,并且为学生提供了专业且个性化的学习服务,这是一种教学方式,更是一个完整、全面的教学系统。但同时也因其自主选择性而导致极高的辍学率,成为制约MOOC普及和发展的主要原因。想要解决上述问题,需要充分掌握学习者日常的学习行为,对学习行为数据进行统计分析,并对其是否辍学进行预测。通过对学习者学习行为的分析来准确的预测其趋势和学习模式,可以帮助教师、平台管理者了解学习者的学习情况,及时采取相应措施来减少辍学率。在本文中,将10天没有学习行为的学习者归为辍学者,界定原则为某个时间点后面10天是否有日志记录。所以对学习者的是否辍学建模研究是一个二分类问题。本文主要有两部分构成:第一部分对学习者学习行为进行了分析,并采用特征工程,提取了三种形式的特征进行整合。第二部分为辍学预测部分,使用六种不同的模型对提取的特征进行训练,从而对学习者是否辍学进行预测。主要工作如下:1、对学堂在线2015年的数据进行预处理操作,并对数据集进行简单的描述统计分析。通过对学习者学习行为数据的皮尔森相关系数分析,我们最终选取了5个有效行为事件。然后提出了三类特征共111维:有效事件特征、数量特征、统计量特征。这些特征集合可以从多个角度来反映MOOC学习者的学习行为习惯,最大限度的保留了原始数据的信息。2、分别使用三种单一模型:二元逻辑回归、支持向量机、决策树,三种集成模型随机森林、AdaBoost和GBDT分类模型对学习者辍学情况进行预测,各模型均采用了系统默认的参数,并选取F值和AUC值以及对应的方差值作为评价标准对比了这六种分类模型的预测性能。实验结果表明:在单一模型的预测中,二元逻辑回归的预测性能比较好,AUC值达到0.8620且算法运行花费的时间最少;SVM模型的F值和AUC值很接近于二元逻辑回归,但是训练时长过长,甚至达到了0.5h;决策树在训练时长和预测值上都表现不佳。在集成模型的预测中,三种集成模型的F值与AUC值比较接近,但GBDT的预测性能表现最好,F值为0.9240和AUC值为0.8863均达到最高且对应的方差均为最小。进行综合对比可知,集成模型无论在训练时长上还是在预测值上都显著优于单一模型,而三种集成模型中GBDT有着更好的性能。所以我们最终选择集成模型GBDT来进行MOOC平台学习者的辍学预测,为预测MOOC辍学率的相关研究提供了一条比较有效的路径。
其他文献
目的探究经食管心脏电生理检查诊断快速心律失常的临床效果。方法采用回顾性分析的方法,对2013年10月至2015年10月在本院接受治疗的60例快速心律失常患者的临床资料进行研究分
阿尔茨海默病(AD)为一种神经系统变性疾病,是引起认知功能下降的最常见原因。此类患者常伴随一系列精神病性症状如焦虑、抑郁、行为异常等,统称为痴呆的行为和精神症状(BPSD),而具备5年病程的AD患者出现至少一种症状的机率高达97%,导致患者反复入住老年精神科病房等医疗机构,增加社会医疗费用。本文拟从BPSD的临床表现、分类、评估、非药物干预及药物治疗、物理治疗等方面进行综述,为AD患者BPSD的诊
目的探讨在压疮管理中应用精细化管理的效果。方法以2013年1月至12月住院高危患者452例为对照组,2014年1月至12月住院高危患者419例为实验组,比较两组高危患者的压疮发生率、护
路线定点求桩计算贯穿于道路建设的各个阶段,是道路坐标计算的一个重要内容。基于道路中线坐标计算的统一数学模型,给出一种统一数学模型的路线定点求桩的计算思路和实现方法,这种方法适合采用计算机程序语言编程计算。
通过分析水厂更换水源后的水质特点及水厂现有处理工艺存在的问题,提出采用水平管沉淀分离技术对水厂进行提标扩能改造的方案设计。主要介绍了本次改造的技术措施。通过采用
分析各种货运量预测方法的优缺点,结合公路交通发展的特点,特别是公路货物需求的基础上,选用回归分析法、灰色预测法,对江西省公路货运量进行预测分析。通过灰色系统模型和线