论文部分内容阅读
目的在艾滋病中医证候研究领域,数据缺失现象普遍存在。数据缺失会增加分析的复杂性,造成结果偏倚等一系列的问题。探索适合该数据库的缺失值填充方法是进行数据分析前迫切需要解决的问题。本研究以中医证侯现场调查数据为基础,通过数据模拟技术,比较不同的处理方法的优劣,探讨各自适用性,确定MI法的最佳填补次数,探索不同的缺失模式和缺失机制下,最为准确、高效、方便的处理方法。方法利用SAS9.1,模拟出完整数据集和不同缺失率的数据集,对于完全随机缺失和随机缺失的连续变量,采用期望最大化法(expectation maximization, EM)、回归法、均值填补法、成组删除法、多重填补法(multiple imputation, MI)进行填补,比较不同方法处理后的精确度、准确度以及均值。二分类变量,采用成组删除法和MI中的logistic回归进行填补,比较不同方法处理后的回归系数以及标准误。结果1.连续变量:本资料的数据均为任意缺失模式,随着填充次数的增加,填充效率逐渐增加,在MI填充10次时填充效率均达到0.95以上。精确度也伴随着填充次数的增加而逐渐增加,填充10次后精确度最高。关于准确度,缺失20%以下时,只需较少的填充次数(3-5次),就能达到较高的准确度;缺失率30-40%时,MI填充10次的准确度相对较高;缺失50%以上时,准确度不稳定。2.完全随机缺失机制:缺失10%以下时,任何一种方法处理后,都与完整数据集均值一致,MI法的精确度和准确度最高。缺失20%以上时,采用成组删除法和MI法效果优于其他方法,MI法的精确度高,成组删除法的准确度高。3.随机缺失机制:缺失较少时(10%-20%),采用MI法准确度、精确度高于其他方法。缺失30%时,采用成组删除法处理后的准确度高,但是精确度较差。缺失较多(缺失率>40%)时,所有方法填充效果均不佳。4.二分类变量,缺失较少(缺失率<40%)时,采用成组删除法简单易行、准确、高效,而MI法程序比较复杂,需占用较大内存和时间进行反复填补,且结果不如成组删除法。缺失40%-50%时,采用MI/logistic回归法,只需较少的填补次数(2次)即可达到较好的效果。缺失率60%以上时,两种方法的处理效果均不好。结论对于大样本连续型变量资料,可认为服从正态分布,可容许的缺失比例在30%以下。传统的缺失值处理方法,如均值填补法和成组删除法简单、方便,具有一定的优势,但是MI法更能够解决相对比较普遍的问题,发挥优势的空间更大,方便了人们对绝大多数类型的缺失值进行填补,填补效率较高。