论文部分内容阅读
目的:量表是由若干个问题或者自我评分指标构成的标准化测定表格,用于测量被试者的某种状态、行为或态度,通常存在于调查问卷中,可将我们所要调查的定性资料量化。然而,调查对象在完成量表时可能会因为不理解题意、敏感问题的回避、漏填等各种原因造成调查量表的数据缺失。对于存在缺失数据的量表,以往的做法大多数是直接删除含缺失值的记录,或者用均值(众数)进行填补,这些方法简单易行,却会减少观测样本量或导致估计参数的方差偏倚。近些年,针对各种类型的数据缺失填补方法的研究越来越多,量表资料属于多变量的二分类或等级资料,最近国内外有研究者用热卡填补、多重填补等方法处理该类型资料的缺失数据,但很少有学者针对性的讨论适合量表缺失值的处理方法,有关的缺失数据处理方法的比较研究还很少。本研究资料选自六个量表的完全数据集,包括三个二分类量表和三个多分类等级量表,分别来自中学生、大学生、老年人三种人群,模拟缺失后分别采用直接删除法、众数填补法、热卡填补法、多重填补-logistic回归法对缺失数据进行处理,期望寻找到适用于量表资料中缺失数据的填补策略与方法,以便于科研工作者在实际工作中进行合理应用。方法:应用蒙特卡罗技术对六个完整量表数据模拟随机缺失机制任意缺失模式的缺失数据,缺失率分别为5%、10%、15%、20%、25%,每次模拟50次。采用直接删除、众数填补、热卡填补、多重填补进行处理,然后在填补准确性、分布特征以及相关与回归三个水平上求出对应的填补评价指标,最后综合以上三个层次探索适于量表资料的最适的缺失值的处理方法。所有模拟过程应用SAS9.4编写宏程序完成。结果:在填补准确性水平上,三个二分类量表中,考试焦虑量表众数填补效果最佳,内外向量表和生活定位量表在缺失比例较小时热卡填补效果最好、缺失比例较大时众数填补效果最好,三个多分类等级量表中,自我接纳量表众数填补效果最佳,日常生活能力量表和青少年心理弹性量表热卡填补效果最佳;在分布特征水平上,五种缺失比例的所有量表都是多重填补对估计量表得分均值的效果最好,热卡填补对估计量表得分标准差的效果最好,除外生活定位量表在缺失比例大的时候直接删除法估计量表得分标准差的效果最好;在相关与回归水平上,对于二分类量表都是多重填补-logistic回归法在估计相关系数和回归系数的效果最好,对于三个多分类等级量表,其中自我接纳量表在缺失比例小的时候多重填补估计相关系数的效果最好、缺失比例大的时候众数填补估计相关系数效果最好,所有缺失比例下都是多重填补估计回归系数的效果最好,日常生活能力量表所有缺失比例下都是热卡填补估计相关系数效果最好,缺失比例小的时候热卡填补估计回归系数效果最好、缺失比例大的时候多重填补估计回归系数效果最好,青少年心理弹性量表都是多重填补估计相关系数和回归系数效果最好。最后对准确性、分布特征、相关回归分别赋予权重1、2、2,整合所有指标得出针对二分类量表多重填补的效果最佳,热卡填补稍次之,众数填补和直接删除法效果较差。对于多分类等级量表,生活能力量表和青少年心理弹性量表在缺失比例小的时候热卡填补稍优于多重填补,缺失比例大的时候多重填补稍优于热卡填补,自我接纳量表都是多重填补最佳。结论:在实际分析应用中,整体来说多重填补法处理量表缺失数据效果最好,最稳定,其次为热卡填补,其中多重填补在估计均值、相关系数、回归系数的时候效果最佳,热卡填补在估计标准差的时候效果最好,并且热卡填补在处理缺失比例小(5%、10%)的多分类等级量表时稍优于多重填补。考虑到通常情况下量表多属于多分类等级量表,且缺失率不会太大,通常会小于10%,且热卡填补属于单一填补,不涉及多重填补后结果的整合,使用起来比较方便,建议使用热卡填补方法填补多分类等级量表的缺失值。