论文部分内容阅读
在平时的许多测验中都会用到同一试题材料下有两道及以上的题目的测验形式,这就是我们所熟知的题组。在以往的研究中,人们发现题组测验常常会违反项目反应理论中的局部独立性假设。通常而言,学者们忽视项目间相依性的影响,直接采用单维的IRT模型。但是在项目反应理论的框架下,题目间的相依性会影响项目参数的精确估计。随后,学者们提出了用于解决项目相依性问题的题组反应模型,该模型在三参数逻辑斯蒂模型的基础上纳入了题组因子。按照项目反应理论,同一项目在不同的单位系统上虽然数值的表现形式不一样,但是实质是一样的。因此,可以将新测验上的参数转换到基准测验上。Haebara(1980)通过最小化两种测验间的差异发展出了一种最小二乘法,称为项目特征曲线等值法(简称为Haebara法)。随后,Stocking和Lord (1983)提出了一种更精确复杂的方法。他们通过极小化各测验间的真分数之差提出了测验特征曲线等值法(简称为SL法)。受到卡方检验的启发,Xiong和Ding (2005)发展出了一种Haebara加权法,他们通过模拟研究发现该方法优于Haebara法。同年,他们又提出了平方根等值法,这是受到Freeman-Turkey多项分布拟合检验的启发而形成的,这种方法也可以看作是一种Haebara加权法。该方法具有答对的概率和答对的概率同时出现而不能够相互替换的特点。因此,平方根等值法可以极易从二级评分模型转换到多级评分模型中。在许多大型测验项目中,测验等值对于考试的公平性、题库建设和计算机自适应测验都具有重要意义。将题组模型应用于不同形式的题组测验等值是非常有必要的。然而,大多数都对题组测验等值方法的研究相对较少。因此,本研究的主要目的就是将等值方法应用于题组等值中,并且通过实证研究和模拟研究比较这些等值方法的表现。本研究首先通过两个实证数据比较不同等值方法的表现。这些实证数据来源于一个英语测验。每一个测验包含五个题组,每个题组有3至20道的题目不等。共有815个被试同时参加了两个测验,采用的是平衡组设计。实证研究将传统的等百分位等值作为评价标准。结果表明,Haebara加权法的表现优于Haebara法,SL法和平方根等值法的估计结果和传统的等百分位等值法较为接近。模拟研究通过改变样本量、题组效应大小和题目数三个条件来比较不同等值方法的表现。模拟研究结果和实证研究的结果较为一致。