论文部分内容阅读
近年来,随着人工智能技术在各个领域的推广和应用,英语作文自动评分领域也得到很大的关注和发展,但是在文本内容的表征上却没有很大的突破,传统的文本内容的表征多基于潜在语义分析技术,而潜在语义分析技术只能提取主题信息,单词的信息会被忽略。因而,本文提出基于词向量聚类的文本内容表征方法和基于向量空间模型的文本内容表征方法,不仅可以充分表征词文本含义,同时兼顾到了作文题意符合程度,并在此基础上,本文研究出一种基于词向量的多模型融合的英语作文自动评分算法。为了能更好地表征文本内容,本文提出基于词向量聚类的文本内容表征方法,先用维基百科英文语料库训练word2vec模型,接着将训练好的模型生成被测文本的词向量并对其进行聚类,用各类别下对应的词的统计信息作为内容文本特征。此外,本文提出用基于向量空间模型的文本内容表征方法来评判学生所写作文的题意符合程度,通过向量空间模型提取文本的关键词,并在此基础上生成扣题度特征。并且,本文从词和句子层面生成词法特征和句法特征作为非文本特征从侧面评判文章质量。然后,利用前面提取到的文本特征和非文本特征,将三个机器学习模型(随机森林、梯度提升树、XGBoost)的预测结果进行线性融合作为最终的预测结果。最后,本文利用国际数据挖掘竞赛平台Kaggle上的英语作文评分比赛数据集对模型效果进行验证。经过验证,本文提出的基于词向量的多模型融合的英语作文自动评分算法在测试集数据上的预测结果的二次加权Kappa值优于Kaggle上的国际英语作文评分比赛上第一名的成绩,验证了本文提出的算法的效果。