问卷调查中量表缺失值填补方法的模拟比较研究

来源 :中国医科大学 | 被引量 : 0次 | 上传用户:lixiangzone119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:量表是由若干个问题或者自我评分指标构成的标准化测定表格,用于测量被试者的某种状态、行为或态度,通常存在于调查问卷中,可将我们所要调查的定性资料量化。然而,调查对象在完成量表时可能会因为不理解题意、敏感问题的回避、漏填等各种原因造成调查量表的数据缺失。对于存在缺失数据的量表,以往的做法大多数是直接删除含缺失值的记录,或者用均值(众数)进行填补,这些方法简单易行,却会减少观测样本量或导致估计参数的方差偏倚。近些年,针对各种类型的数据缺失填补方法的研究越来越多,量表资料属于多变量的二分类或等级资料,最近国内外有研究者用热卡填补、多重填补等方法处理该类型资料的缺失数据,但很少有学者针对性的讨论适合量表缺失值的处理方法,有关的缺失数据处理方法的比较研究还很少。本研究资料选自六个量表的完全数据集,包括三个二分类量表和三个多分类等级量表,分别来自中学生、大学生、老年人三种人群,模拟缺失后分别采用直接删除法、众数填补法、热卡填补法、多重填补-logistic回归法对缺失数据进行处理,期望寻找到适用于量表资料中缺失数据的填补策略与方法,以便于科研工作者在实际工作中进行合理应用。方法:应用蒙特卡罗技术对六个完整量表数据模拟随机缺失机制任意缺失模式的缺失数据,缺失率分别为5%、10%、15%、20%、25%,每次模拟50次。采用直接删除、众数填补、热卡填补、多重填补进行处理,然后在填补准确性、分布特征以及相关与回归三个水平上求出对应的填补评价指标,最后综合以上三个层次探索适于量表资料的最适的缺失值的处理方法。所有模拟过程应用SAS9.4编写宏程序完成。结果:在填补准确性水平上,三个二分类量表中,考试焦虑量表众数填补效果最佳,内外向量表和生活定位量表在缺失比例较小时热卡填补效果最好、缺失比例较大时众数填补效果最好,三个多分类等级量表中,自我接纳量表众数填补效果最佳,日常生活能力量表和青少年心理弹性量表热卡填补效果最佳;在分布特征水平上,五种缺失比例的所有量表都是多重填补对估计量表得分均值的效果最好,热卡填补对估计量表得分标准差的效果最好,除外生活定位量表在缺失比例大的时候直接删除法估计量表得分标准差的效果最好;在相关与回归水平上,对于二分类量表都是多重填补-logistic回归法在估计相关系数和回归系数的效果最好,对于三个多分类等级量表,其中自我接纳量表在缺失比例小的时候多重填补估计相关系数的效果最好、缺失比例大的时候众数填补估计相关系数效果最好,所有缺失比例下都是多重填补估计回归系数的效果最好,日常生活能力量表所有缺失比例下都是热卡填补估计相关系数效果最好,缺失比例小的时候热卡填补估计回归系数效果最好、缺失比例大的时候多重填补估计回归系数效果最好,青少年心理弹性量表都是多重填补估计相关系数和回归系数效果最好。最后对准确性、分布特征、相关回归分别赋予权重1、2、2,整合所有指标得出针对二分类量表多重填补的效果最佳,热卡填补稍次之,众数填补和直接删除法效果较差。对于多分类等级量表,生活能力量表和青少年心理弹性量表在缺失比例小的时候热卡填补稍优于多重填补,缺失比例大的时候多重填补稍优于热卡填补,自我接纳量表都是多重填补最佳。结论:在实际分析应用中,整体来说多重填补法处理量表缺失数据效果最好,最稳定,其次为热卡填补,其中多重填补在估计均值、相关系数、回归系数的时候效果最佳,热卡填补在估计标准差的时候效果最好,并且热卡填补在处理缺失比例小(5%、10%)的多分类等级量表时稍优于多重填补。考虑到通常情况下量表多属于多分类等级量表,且缺失率不会太大,通常会小于10%,且热卡填补属于单一填补,不涉及多重填补后结果的整合,使用起来比较方便,建议使用热卡填补方法填补多分类等级量表的缺失值。
其他文献
畜牧业是我国农业经济的支柱产业,现代化畜牧业的发展与优良的畜禽品种具有重要联系.因此,要做好畜禽品种的改良工作,重视现代畜牧业发展,使其符合时代的变化,推进我国畜牧业
由于卫生和营养不足,养猪场经常发生母猪瘫痪现象。但是,由于生猪的生产性能和生理状态特殊性,使得对母猪产后瘫痪情况的处理变得更为困难。一旦母猪生产出现事故,不仅会影响
目的评估经皮胆道支架联合支架旁125Ⅰ粒子条植入治疗恶性胆道梗阻的疗效。方法选取28例恶性胆道梗阻患者,行经皮胆道支架联合支架旁125Ⅰ粒子条植入,疗效评价标准:统计手术成
Sasobit改性温拌沥青混合料是一种可以降低能源消耗、减少污染气体排放的环保型材料,掺加Sasobit外加剂的混合料可在较普通热拌沥青混合料更低的温度下拌和、摊铺和碾压,并且具
一、绿色畜牧养殖技术在畜牧产业中的践行意义畜牧业作为推动国民经济发展的重要基础产业,近年来其养殖规模和数量持续增加的新市场经济常态下,如何实现养殖效益的最大化成为
以被特别处理作为上市公司陷入财务困境的标志,本文对多元判别分析和多元逻辑回归分析进行了比较,发现多元逻辑回归分析总体上要优于多元判别分析.在此基础上,利用泰勒展开式
目的分析铜绿假单胞菌的样本来源、科室和年龄分布、构成比及耐药性变迁。方法收集2013-2017年医院感染患者检出的铜绿假单胞菌,进行菌种鉴定和抗菌药物敏感性试验,采用WHONE