论文部分内容阅读
大学英语四、六级(以下简称“四、六级”)是我国大规模高风险的英语考试,对其进行效度研究一直是我国外语测试界关注的重要议题。然而在众多关于四、六级效度的研究中,对考试阅读理解文本本身进行分析的研究较少,而阅读理解文本在某种程度上直接影响考生的考试表现;此外,四、六级考试是同一系列但等级不同的考试,那么二者之间的差异究竟如何,学界对此的关注较少;而且,现有的四、六级考试阅读理解文本分析所涉及的文本数量有限,因而得出的结论可能不具有高度的概括性。因此,本文将采用数据挖掘方法对比分析历年来四、六级真题中阅读理解文本复杂度的差异,以期为四、六级考试的效度验证提供证据,为四、六级试题的开发提供参考,同时对语言测试研究方法的创新做出有益尝试。
本文主要解决以下三个研究问题:(1)哪些文本复杂度特征能够有效地区分四、六级阅读理解文本?(2)四、六级阅读理解文本复杂度具体有何差异?(3)在本文使用的三种数据挖掘方法(决策树算法、逻辑回归算法、朴素贝叶斯算法)中,哪一种方法的分类效果最好?
首先,本文收集了四、六级历年真题中的阅读理解文本,其中四级阅读理解文本共251篇,六级文本共253篇;然后用自动文本分析工具Coh-Metrix提取了上述阅读文本在词汇、句法、语篇层面共45个文本特征;采用了三种数据挖掘算法基于上述文本特征对两类文本进行自动分类;数据挖掘实验在WEKA中进行,经过特征选择,共获得三个特征集;最后,用上述三种算法分别在三个特征集上训练分类模型,再筛选出分类效果最好的模型和特征集。
本文得出如下结论:
(1)研究发现,在特征集Ⅱ上的文本分类效果最好,分类正确率达81.94%,精确率达82.35%,召回率达81.9%,F1值为81.9%,ROC面积为0.83,即词汇多样性、句法相似性、总词数、叙事性、时间连贯性、词汇熟悉度这六个文本特征能够有效地将四、六级阅读理解文本区分出来。
(2)对于上述六个文本特征,六级阅读理解文本与四级阅读理解文本的对比如下:词汇更多样、总词数更多、实词熟悉度较小、句法相似性较小、叙事性较小、时间连贯性较小。
(3)在决策树、逻辑回归、朴素贝叶斯这三种数据挖掘算法中,决策树模型在三个特征集上的分类效果皆最佳。
基于上述研究发现,本研究为四、六级阅读理解测试的效度验证提供了证据,为四、六级阅读理解试题的开发提供了参考,为语言测试研究方法的创新做出了有益的尝试。
本文主要解决以下三个研究问题:(1)哪些文本复杂度特征能够有效地区分四、六级阅读理解文本?(2)四、六级阅读理解文本复杂度具体有何差异?(3)在本文使用的三种数据挖掘方法(决策树算法、逻辑回归算法、朴素贝叶斯算法)中,哪一种方法的分类效果最好?
首先,本文收集了四、六级历年真题中的阅读理解文本,其中四级阅读理解文本共251篇,六级文本共253篇;然后用自动文本分析工具Coh-Metrix提取了上述阅读文本在词汇、句法、语篇层面共45个文本特征;采用了三种数据挖掘算法基于上述文本特征对两类文本进行自动分类;数据挖掘实验在WEKA中进行,经过特征选择,共获得三个特征集;最后,用上述三种算法分别在三个特征集上训练分类模型,再筛选出分类效果最好的模型和特征集。
本文得出如下结论:
(1)研究发现,在特征集Ⅱ上的文本分类效果最好,分类正确率达81.94%,精确率达82.35%,召回率达81.9%,F1值为81.9%,ROC面积为0.83,即词汇多样性、句法相似性、总词数、叙事性、时间连贯性、词汇熟悉度这六个文本特征能够有效地将四、六级阅读理解文本区分出来。
(2)对于上述六个文本特征,六级阅读理解文本与四级阅读理解文本的对比如下:词汇更多样、总词数更多、实词熟悉度较小、句法相似性较小、叙事性较小、时间连贯性较小。
(3)在决策树、逻辑回归、朴素贝叶斯这三种数据挖掘算法中,决策树模型在三个特征集上的分类效果皆最佳。
基于上述研究发现,本研究为四、六级阅读理解测试的效度验证提供了证据,为四、六级阅读理解试题的开发提供了参考,为语言测试研究方法的创新做出了有益的尝试。