论文部分内容阅读
目的:分别以标准化测验(3-4年级多重成就测验)和非标准化测验(期中和期末数学学业测验)作为研究材料,利用项目反应理论(IRT)对所抽样本进行成绩的等值分析,以增值性评价理念为指导进行实证研究,探索出本土化适用的方法。方法:采取整群抽样的方法,选取长沙市三年级示范性小学和非示范性小学各一所的学生被试共111名被试进行施测。测验等值均采用锚测验设计,其中标准化测验采用内锚设计,非标准化测验采用外锚设计。采用基于Rasch模型的RUMM软件进行测验成绩的等值,实现对学生成绩的增值评价。在前人研究的基础上加入影响学生增值成绩的家庭和学校因素变量,采用多层线性模型(HLM)技术对学校的教育增值评价进行分析。结果:1、单维性假设检验结果表明,研究所需测验材料的第一特征根与第二特征的比值均接近或大于3,表明各个测验基本符合单维性假设。2、项目分析结果表明,各测验的项目难度参数基本在[-3,3]之内。其中AB校标准化测验的项目难度区间为[-3.1,3.74],平均难度参数为1.42,在[-3,3]范围内的项目个数占总项目数量的95.76%;A校班级标准化测验的项目难度参数区间为[-2.88,3.47],平均难度参数近似为0,在[-3,3]范围内的项目个数占总项目数量的99.14%;AB校非标准化测验的项目难度参数区间为[-3.85,3.51],平均难度参数为0.11,在[-3,3]范围内的项目个数占总项目数量的95.31%;A校班级非标准化测验的项目难度参数区间为[-3.19,2.9],平均难度参数为0.21,在[-3,3]范围内的项目个数占总项目的95%。3、绝大多数的学生在一定时间段内有明显的增值。其中AB校标准化测验有66名学生是实现了正增值,占总人数的59.46%;A校班级标准化测验有41名学生实现了正增值,占总人数的78.85%;AB校非标准化测验有72名学生实现了正增值,占总人数的64.86%;A校班级非标准化测验有39名学生实现了正增值,占总人数的75%。4、使用Wilcoxon带符号秩检验的非参数检验方法对A校班级标准化测验(3-4年级多重成绩测验数学分量表)成绩等值后的增值排名方式与非标准化测验(期中和期末数学学业测验)成绩等值后的增值排名方式进行差异性检验,结果显示基于IRT成绩等值后的这两种增值排名方式不存在显著差异,因此可以初步认为基于IRT成绩等值的非标准化测验在教育增值评价过程中是具备实际操作可行性的。5、使用多层线性模型(HLM)方法,将学生层面的变量纳入第一层模型的回归,结果显示,只有性别(t=2.349)、家长课外辅导(t=3.268)和母亲受教育程度(t=5.160)这三个预测变量的系数显著,其他变量对学生数学增值成绩的影响均不明显,学生性别等三个变量解释了学生水平因变量方差的43.53%。结论:1、标准化测验和非标准化学业测验各自在一定的条件下通过项目反应理论(IRT)是可以实现等值的。2、用原始分排名和增值分排名结果明显不同,传统的一次性评价和增值性评价结果有很大差别。3、教育增值评价的适用对象可以是班级内的学生个体,也可以是学校间的单位个体。4、初步认为基于IRT的非标准化测验等值的教育增值评价在实际操作中是可行的。