论文部分内容阅读
计算机技术与语言测试的结合是二语习得领域的新兴方向,也是未来研究的必然趋势。目前基于计算机系统的自动评分软件在国外已有开发和应用,但在国内比较少见,尤其是口语评分方面很少涉足。近年来,汉语学习不断升温,参加汉语考试的人越来越多。国内大规模的汉语口语考试如HSK(高等)口试,仍采用传统的人工评分,不仅效率低,而且主观性很强。本研究旨在探索汉语口语自动评分系统的核心环节——构建评分模型。完整的口语评估模型涉及到语音和转写之后的文本两个方面,但由于个人的能力和时间有限,只选择文本角度。主要解决两个问题,一是提取能有效测量汉语口语表现的文本特征,探讨多项文本特征对口语成绩的预测能力。二是在此基础上初步构建一个口语评分模型。论文第一章回顾了现行的口语评分方法、语言表现的“三性分析”法、口语自动评分系统以及汉语评分模型构建的国内外文献,重点介绍了国外已经运行的口语自动评分系统SpeechRater。目前“三性分析”法是二语研究领域测量学习者语言表现的主要方法。考虑到本研究口语语料的特点以及时间精力的问题,本文仅考察语言的流利性和准确性。第二、三章是文本特征的提取,构建口语评估的指标体系。第二章从词汇和语法两个角度分析样本的准确性。结合鲁健骥(1987,1994)先生的分类将词汇错误分为词语误用、词语遗漏、词语赘余、非汉语词,语法错误分为遗漏、误加、误用和错序,结合语料举例分析。在此基础上,提取了20项测量准确性的量化指标。第三章对语言的流利性进行了界定,从时间性指标和语言表述指标两个方面确立了13项反映语料流利性的文本特征。第四章是本文的数据分析部分。首先邀请了3位汉语教师分别从语音、词汇、语法、篇章以及整体印象五个方面对40份语料进行评分,计算出每份语料的平均得分。然后,以平均分为因变量,以33项文本特征为自变量,通过SPSS的多元逐步回归方法,得出一个含6个自变量的回归方程,作为本文所探索的口语评估模型。本研究认为进入回归方程的6个指标,能很好地预测样本的口语成绩。它们分别是平均停顿长度、平均语流长度、重复次数、纠正有效性、虚词错误总数、无错误助词数量,其中流利性指标4项,准确性指标2项。进而得出回归方程:口语分数的预测值y=68.053-30.960*平均停顿长度+2.261*平均语流长度-0.231*重复次数+13.437*纠正有效性-0.222*虚词错误总数+0.099*无错误助词数。最后,相关分析结果和散点图都显示预测值y与平均分高度相关,表明该回归方程能较准确地预测口语得分。第五章展示了本文的主要结论。首先,将结论中的6个文本特征与英语L2和其它汉语L2口语研究的结论进行了对比,发现既有差异,也有交叉的指标,说明了结论的大部分指标在其它研究中也有很好的预测效果。然后,通过访谈3位汉语口语教师进一步探讨本文的研究范式,访谈结果表明本文的研究设计和研究结果与实际的教学情况大体上符合。最后,提出了口语教学需要关注语言表述形式问题,如停顿、重复和纠正行为,重视词汇教学,尤其是虚词教学,并指出口语自动评分的未来研究方向。