论文部分内容阅读
MOOC(massive Open Online Course)全称为“大规模在线开放课程”,因其资料共享性、课程开放性、教育自主性和终身性等传统教育行业欠缺的优质特色吸引了全球数以万计的学习者加入。此外它不受时间、地点限制的特性,实现了以学生自学为主的学习形式,更让优质的教学资源得到了充分利用,并且为学生提供了专业且个性化的学习服务,这是一种教学方式,更是一个完整、全面的教学系统。但同时也因其自主选择性而导致极高的辍学率,成为制约MOOC普及和发展的主要原因。想要解决上述问题,需要充分掌握学习者日常的学习行为,对学习行为数据进行统计分析,并对其是否辍学进行预测。通过对学习者学习行为的分析来准确的预测其趋势和学习模式,可以帮助教师、平台管理者了解学习者的学习情况,及时采取相应措施来减少辍学率。在本文中,将10天没有学习行为的学习者归为辍学者,界定原则为某个时间点后面10天是否有日志记录。所以对学习者的是否辍学建模研究是一个二分类问题。本文主要有两部分构成:第一部分对学习者学习行为进行了分析,并采用特征工程,提取了三种形式的特征进行整合。第二部分为辍学预测部分,使用六种不同的模型对提取的特征进行训练,从而对学习者是否辍学进行预测。主要工作如下:1、对学堂在线2015年的数据进行预处理操作,并对数据集进行简单的描述统计分析。通过对学习者学习行为数据的皮尔森相关系数分析,我们最终选取了5个有效行为事件。然后提出了三类特征共111维:有效事件特征、数量特征、统计量特征。这些特征集合可以从多个角度来反映MOOC学习者的学习行为习惯,最大限度的保留了原始数据的信息。2、分别使用三种单一模型:二元逻辑回归、支持向量机、决策树,三种集成模型随机森林、AdaBoost和GBDT分类模型对学习者辍学情况进行预测,各模型均采用了系统默认的参数,并选取F值和AUC值以及对应的方差值作为评价标准对比了这六种分类模型的预测性能。实验结果表明:在单一模型的预测中,二元逻辑回归的预测性能比较好,AUC值达到0.8620且算法运行花费的时间最少;SVM模型的F值和AUC值很接近于二元逻辑回归,但是训练时长过长,甚至达到了0.5h;决策树在训练时长和预测值上都表现不佳。在集成模型的预测中,三种集成模型的F值与AUC值比较接近,但GBDT的预测性能表现最好,F值为0.9240和AUC值为0.8863均达到最高且对应的方差均为最小。进行综合对比可知,集成模型无论在训练时长上还是在预测值上都显著优于单一模型,而三种集成模型中GBDT有着更好的性能。所以我们最终选择集成模型GBDT来进行MOOC平台学习者的辍学预测,为预测MOOC辍学率的相关研究提供了一条比较有效的路径。