论文部分内容阅读
本文探究了句酷批改网对中国大学生英语作文句法复杂度的内在评价机制。文章首先回顾自动化写作评分系统的相关文献,如对国外研发的PEG,IEA和E-rater系统的研究。与上述自动评分系统相比,国内设计研发的句酷批改网自动写作评分系统仍有不足和亟需改进。句酷批改网自动评分系统在句法复杂度和句法结构层面的反馈功能仍存在缺陷,相关研究也较为不足,句酷批改网句法层面上的内部评价机制“黑箱”状态仍有待探究。本研究基于该研究领域的空缺,对句酷批改网自动评分系统在句法复杂度层面上的评分机制进行探究,旨在为未来的英语教、学和自动评分系统改进提供参考。在本研究中,我们从句酷批改网上抽取2300篇学生英语写作文本(学生对象主要为重庆大学非英语专业大学二年级学生,同时文本附有相应的句酷批改网成绩),并使用由陆小飞博士所研发的句法复杂度分析器(Second Language Syntactic Complexity Analyzer,L2SCA)、SPSS统计软件包和R Studio算法包(随机森林和逻辑回归的分类算法)来分析学生写作文本总体句法复杂度情况和高分组学生写作文本中的重要句法特征,以了解学生在作文中使用何种句法特征有助于学生在写作方面取得好的成绩,进而探究句酷批改网自动评分系统在句法层面上的内在评价机制。鉴于上述内容,本研究提出三个问题:1)基于句酷批改网的评分,随机森林和逻辑回归算法根据句法复杂度测量指标对学生作文(高、低分组)的分类准确率如何?2)对数据建立的算法模型拟合度如何?3)高分组学生的写作文本在句法层面上有什么重要特征?本研究的主要发现如下:第一,基于14个句法复杂度测量指标,高分组学生作文的分类具有高度预测性和良好的分类表现,随机森林和逻辑回归的准确率分别为84.9%和93.4%;第二,随机森林和逻辑回归建立的分类模型均具有理想的拟合度,ROC曲线的AUC值分别为0.77和0.75;第三,结合随机森林中的特征重要性排序和逻辑回归的特征显著性水平,高分组学生在写作过程中常有的五大重要句法指标是:MLS(句子平均长度),C/S(平均每句所含子句量),MLC(平均子句长度),VP/T(每个主从句中的动词短语量)和CN/C(每个子句中的复杂名词性短语量)。这5个指标可以分为3种句法特征:单位长度(MLS,MLC),句子复杂度(C/S)和特定短语结构(VP/T,CN/C)。也就是说,在句酷批改网自动评分系统评估下写作成绩表现良好的学生,他们在写作过程中更倾向于增加句法特征的使用,如单位长度,句子复杂度和特定短语结构。该研究希望能够为英语写作教、学和自动写作评估系统的改进带来启示意义。