基于机器学习的MOOC作弊行为检测模型研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:liu_mi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模开放在线课程(MOOC)相比于传统的线下教育模式,有其独特的优势。但是,当MOOC学分课在全球高校广泛开展起来的同时,也暴露出了一些问题,比如学习者的诚信问题。由于在线学习中缺乏对学习者学习过程的有效监控,部分学习者存在侥幸心理,会选择采用“刷课”、抄袭、替考等作弊手段来完成课程考核,以达到轻松获取学分的目的。采用作弊手段进行在线学习会造成学习效果评价不准确、学习质量不高等问题,这将会对MOOC的学分认证造成严重的影响。因此,针对MOOC作弊行为的研究与检测将成为当前MOOC可持续发展的一个重要突破点。本文基于MOOC平台真实的学习行为日志数据,开展了对MOOC平台中作弊行为检测的相关研究。首先围绕MOOC学习者全方位的行为数据构建MOOC作弊行为特征指标体系,为应用机器学习算法实现作弊行为检测奠定数据基础。然后针对当前作弊行为检测场景所存在的问题,设计了三种基于机器学习算法的MOOC作弊行为检测模型。最后,从实践层面验证了本文设计的三种MOOC作弊行为检测模型的有效性。本文的主要研究内容如下:(1)设计了一种基于孤立森林算法的MOOC作弊行为检测模型。针对MOOC平台前期作弊标记数据集少,分类模型效果受限等问题,本文采用孤立森林算法作为数据标注预处理算法,用于MOOC平台作弊行为数据的初步标注。经实验表明,孤立森林算法对MOOC作弊行为检测效果显著,其精确率达96.84%、召回率达87.28%、AUC达93.64%;相比于K-means和DBSCAN两种常用的聚类算法,该模型的AUC分别提升了18.19%和17.33%;而相比于One-Class SVM算法,孤立森林算法在取得相近检测性能的同时,节省了近40倍的训练时间。因此,孤立森林算法能够快速且准确地对大量的MOOC行为数据进行检测,极大地提高了研究人员数据标注的效率。(2)设计了一种基于EE-XGBoost(Easy Ensemble-XGBoost)复合算法的MOOC作弊行为检测模型。针对无监督学习算法检测效果欠佳、MOOC用户数据训练样本不均衡等问题,本文将Easy Ensemble和XGBoost算法相结合,构成EE-XGBoost算法,并基于该算法构建MOOC作弊行为检测模型。经实验表明,该模型相比于孤立森林算法,在精确率、召回率和AUC上分别提升了1.93%、6.19%、3.21%,而相比于未经样本均衡处理的XGBoost算法,则分别提升了0.35%、0.82%、0.53%,同时误检率下降了0.003%,并可以有效降低样本不平衡导致的过拟合风险。(3)设计了一种基于CNN-Bi GRU-Attention复合网络结构的MOOC作弊行为检测模型。针对传统作弊行为检测技术存在着规则库难以管理、统计模型依赖人工提取特征,从而导致漏报率高、泛化能力差等问题。本文设计了一种基于自动特征提取的深度学习模型,该模型通过融合了卷积神经网络(CNN)、双向门控循环单元(Bi GRU)以及注意力机制(Attention),大大提升了单一模型的检测性能。经实验表明,该模型相比于Bi GRU、CNN-Bi GRU和Bi GRU-Attention三种网络结构,AUC分别提升了1.91%、1.29%和0.53%。本文同时还针对作弊样本不足的问题,利用序列截断扩增和平移扩增的方法进行数据增强,并在该模型的AUC值上得到了1.97%的提升。
其他文献
目的:食管鳞癌(ESCC)是食管癌最常见的组织学亚型,被认为是世界上最致命的癌症之一。中国是ESCC的高发病地区,尽管在诊断和治疗方面取得了进展,ESCC的预后仍然很差。因此,仍需进一步阐明这种疾病的分子机制,探索更安全有效的治疗靶点,改善ESCC患者的预后。既往研究显示Wnt2在多种恶性肿瘤中高表达,却在成人重要器官中几乎不表达,这提示是Wnt2是一个潜在的肿瘤治疗靶点。我们课题组前期研究发现W
综艺节目作为文化工业的代表性产品,是国内外电视台、视频网站的重要流量保障。综艺节目自诞生之初就自带娱乐基因,文化类内容大多数情况下以播放片段的形式进行大众传播,较少出现在综艺节目里。目前,以传统文化为核心内容的综艺节目热播是提升综艺节目自主创新力的良好契机。在我国树立文化自信的过程中,传统文化类综艺节目的原创表达是重要的媒介表现,这也是传统文化创造性转化创新性发展的重要路径。本研究共分为四个部分:
我国生鲜电商正处于高速发展阶段,带动了生鲜产品冷链物流行业的快速增长。我国冷链物流体系的建设起步较晚,物流体系还不完善,大多数地区仍在使用传统物流配送中心。我国生鲜冷链物流市场腐损率高达20%到30%,是美欧日等发达市场的4倍以上,冷链物流总成本远高于发达国家。因此,考虑包括货损成本在内的冷链物流配送中心合理选址是当前亟需解决的问题。本文在传统配送中心选址问题的基础上,研究生鲜产品运输配送过程中的
随着我国的经济和科技高速发展,医疗水平显著提高,人口老龄化趋势明显。跌倒是威胁老年人健康生活的重要问题。可穿戴软体机器人作为一种新型的机器人技术,可以对人体下肢的运动提供增强或辅助。可穿戴软体机器人的特点是可以通过3D打印技术定制工艺,使其具有适应不同的人体肌肉和骨骼的几何形状,更适宜穿戴。且与外骨骼等可穿戴机器人相比,更能降低机器人对人肢体可能造成的物理伤害。采用可穿戴软体机器人提高老年人的平衡
校园面积日益增加加剧了高校能源消耗,学生作为高校用能主体,探究学生节能行为影响因素及其对节能行为的作用机理对建设节约型校园具有重要意义。因此,本文针对高校学生节能行为开展以下研究:首先通过文献综述与深度访谈相结合的方式识别影响学生节能行为的相关因素,并构建学生节能行为影响因素理论模型;其次,在参考成熟量表与实地调研的基础上开发学生节能行为影响因素调查问卷,并对有效回收的483份问卷进行信效度检验;
表观遗传学是研究基因的核苷酸序列不发生改变的情况下,基因表达的可遗传的变化的一门学科,主要包括组蛋白翻译后修饰、染色质重塑、DNA甲基化及非编码RNA的靶向作用等。表观遗传与细胞命运关系密切,对细胞的分裂、增殖与衰老等生理过程具有重要调节作用,通常来说,表观遗传修饰异常是肿瘤发生发展的重要因素。组蛋白修饰是指在相关酶作用下组蛋白发生甲基化、乙酰化、磷酸化和泛素化等修饰的过程,可通过直接影响染色质结
随着近几年自动驾驶、人脸识别、3D建模、虚拟现实等领域对3D成像技术的需求日渐增长,3D成像技术逐渐成为一个比较热门的研究方向。在苹果公司与OPPO公司相继推出3D结构光人脸识别手机之后,3D图像传感器市场变得更加火热。在双目视觉、结构光、飞行时间测距(Time-Of-Flight,TOF)等众多3D成像技术之中,飞行时间测距法以其在抗强环境光干扰、探测精度、探测距离、系统集成度和成本上的一系列优
21世纪已成为人口老龄化的时代,我国已进入老龄化快速发展阶段,伴随老龄化而来的一系列社会问题已引起社会广泛关注。我国政府为应对老龄化挑战采取了多项积极措施,其中之一就是开办老年大学,发展老年教育。自1983年山东省率先成立我国第一所老年大学之后,老年大学的创办便形成燎原之势。同时,老年人精神需求不断扩大,导致我国各省、市老年大学“一座难求”,因此研究老年大学的发展显得尤其重要。本文以资源依赖理论为
既往的威尔逊行政思想研究,大多是对他的政治与行政二分论作诠释性研究,而忽视对他的知识基础的剖析与确认。不同于单一文本解读方式,本研究尝试从知识基础这一解读方式,来重新认识伍德罗·威尔逊的行政思想。本文中心论点是伍德罗·威尔逊是一个宪政主义行政思想家。以整体文本取代单一文本的解读方式,以“知识基础”这一概念表现出威尔逊整体学术思想及其方法论。即知识基础的内在逻辑是威尔逊的宪政主义价值取向、科学认识论
城市是创新活动的空间载体,提升城市的创新水平是建设创新型国家,实现可持续发展的有效途径。为城市提供一个有利于创新增长的政策环境,对于激发城市的创新活力,提升国家的国际竞争力意义重大。当前,区域房价成为制约我国城市创新发展的重要因素,国家出台了一系列房地产调控政策来缓解房价上涨对城市创新带来的不利影响。其中,2011年的房产税改革被寄以厚望,引起了社会的广泛关注。为探究房产税改革是否可以促进城市的创