论文部分内容阅读
传统教育测验只简单给出测验分数,其目的也只是为了排名选拔或者评定整体水平,而不考虑被试潜在的心理过程、认知特点。不同于传统测验,认知诊断评估(Cognitive Diagnosis Assessment,CDA)可以进一步提供个体微观知识结构(knowledge structure)或认知加工技能(processing skills)的信息,教育者可以根据这些信息做到因材施教、事后补救以满足学生的个性化学习需求。CDA的实现,需要性能优良且可推广使用的认知诊断模型(Cognitive Diagnosis Model,CDM),因此模型的开发就尤为重要。CDA的发展过程中,涌现出大量适用不同测验情景的模型,然而多数模型仅限于测量0-1计分题目,对多级计分的题目只能通过转换为0-1计分的方式处理,这样一来就损失掉了许多有用信息。例如对于多级计分的题目,被试需要完成多个步骤的作答,在每个步骤中被试可能需要调用不同的认知属性来完成题目,如果使用多级计分的CDM,则可以更精确的估计被试知识结构。教育测验发展过程中,将0-1计分拓展为多级计分的思想在项目反应理论(Item Response Theory,IRT)的发展中已有不少发展,比较典型的是等级反应模型(Graded Response Model,GRM)及分部评分模型(Partial Credit Model,PCDM)。已有的多级评分认知诊断模型中,多是根据等级反应模型的思想发展而来。本研究从分部评分思路出发,将认知诊断DINA模型拓广为多级模型(以下简称PCDINA),并将该模型与国内根据GRM开发的的P-DINA模型、顺序加工的多级认知诊断模型(Sequential DINA model,SEQ-DINA)相比较。研究结果表明:(1)新开发PC-DINA模型参数估计精准度较高、模型稳健性较强,模型资料拟合良好,表明模型基本合理、可行。(2)PC-DINA、P-DINA、SEQ-DINA的比较研究发现,在真模型与拟合模型一致和不一致两种情况下,参数估计精度均受真模型参数质量影响较大;当参数质量较低时,参数估计精度也降低;同时参数估计精度也受被试数量影响,当被试数量降低时,参数估计精度也会降低,但降低幅度较小;被试的判准率受真模型参数质量影响较大,当参数质量较低时,判准率明显下降;判准率受被试数量影响不明显。(3)PC-DINA、P-DINA、SEQ-DINA相互验证研究表明:当真模型与拟合模型相一致时,模型资料拟合指标最好,当真模型与拟合模型不一致时,模型拟合指标会有所下降。(4)当拟合模型与真模型一致时,PC-DINA的拟合情况最好,P-DINA模型拟合次之,SEQ-DINA模型最差;当真模型拟合模型不一致时,SEQ-DINA模型整体表现最好,P-DINA和PC-DINA模型次之。(5)使用真实数据研究表明,PC-DINA模型拟合情况最好,P-DINA模型次之,SEQ-DINA模型最差。