论文部分内容阅读
研究背景:大规模专项调查中常采用多阶段抽样,获得的数据往往具有层级结构。对于分层数据,相同层级单元中的个体具有一定共性,例如卫生服务调查中,市被分为区县,不同区县由于经济发展和卫生服务水平、政策等因素,导致区县对于个体的卫生服务需求等状况有一定影响。使用传统回归模型时,由于拟合后的残差未考虑分层,不具有独立特性,将影响模型中参数的有效性和统计特性,使统计结果出现偏倚,因此需要采用多层模型进行拟合。线性回归模型通常用于考察解释变量对因变量的条件均值的影响,应用较广泛。但是要求因变量服从正态分布和方差齐性假设,当不满足条件时拟合效果会变差。分位数回归将线性回归扩展到估计因变量的条件分位数,对因变量分布不做假设,也不要求方差齐性,且更有利于考察因变量的条件分布的全貌。自分位数回归思想提出以来,以其良好的稳健性受到越来越多研究者的关注,随着计算机大规模计算的实现,分位数回归得到了快速的发展。研究目的:本研究针对具有层级结构的数据,通过不同协变量与样本分布情形下的模拟研究,评价分层分位数回归模型的应用效果,探索其适用性;并将其用于基于卫生调查数据的体育锻炼频率对于独居老人健康相关生命质量的影响的研究,以期为相关领域的研究提供方法选择的参考与帮助。研究方法:本研究采用模拟研究与实例应用相结合的方法。首先,通过对分层分位数回归理论研究,使用最简单的分层分位数回归模型进行层级数据的模拟。为了比较在不同数据结构下,分层分位数回归和分位数回归的参数估计效果,将模拟分为3种情形:单一自变量、多个独立自变量、多个相关自变量,在多个独立自变量中自变量设置为连续型、二分类和等级资料。在多个相关自变量中系数设置为相同和不同两种情况。为了尽可能覆盖多种样本量情况,以2水平为例,在总样本量为1500例的情况下,设置一水平每单位观测数量?二水平单位数量分别为100×15、150×10、300×5三种组合。随机截距项和随机误差项考虑了正态分布、t分布、卡方分布和非对称拉普拉斯分布等四种随机分布类型的不同组合情况。每次模拟中,均模拟500个数据集。本文选取参数估计量的偏倚、绝对偏倚和标准差来分别评价模型对参数估计的准确性和稳定性。最终将模拟结果应用到实际卫生服务调查数据分析中,分析体育锻炼频率对上海市独居老人健康相关生命质量的影响,解决实际问题,为卫生服务调查数据中分层数据的统计分析提供方法学支持。研究结果:模拟研究发现在单一自变量情形下,分层分位数回归和分位数回归截距估计值的偏倚都较小,拟合都较为准确。分层分位数回归的截距估计整体上好于分位数回归。在总样本量相同的情况下,随着第二层单位数增多,每单位中的样本量减少,分层分位数回归的截距项拟合较分位数回归越好。分层分位数回归中系数估计值的偏倚在大多数随机分布组合下小于分位数回归,但例如当随机截距分布为卡方分布且随机误差分布为非对称拉普拉斯分布时,分层分位数回归和分位数回归系数估计值的偏倚都较大,估计效果均不好。分层分位数回归和分位数回归的系数估计标准差都较大,稳定性不好。多个自变量情形下,分层分位回归和分位数回归的截距和系数估计偏倚都较小,拟合效果都较好。相比较而言,不论自变量间是否相关、自变量类型,分层分位数回归的截距估计值的偏倚在较多数随机分布时均小于分位数回归,准确性比分位数回归好,但标准差较分位数回归大,稳定性比分位数回归差。但在大多数分布下,分层分位数回归的系数估计值的偏倚和标准差在较多数随机分布时均小于分位数回归,准确性和稳定性都好于分位数回归。在实例研究中,使用分层分位数回归和分位数回归分别对体育锻炼频率对上海市独居老人健康相关生命质量的影响进行分析,可以看到使用分层分位数回归可以对不同分位数下体育锻炼对于独居老人健康相关生命质量的影响有全面的刻画和分析。体育锻炼频率对于不同健康自评得分状况的老年人,其影响不全相同。应针对性开展健康教育和健康宣讲,提高体育锻炼频率,获得更高的健康相关生命质量。研究结论:当单一自变量时,分层分位数回归截距拟合较分位数回归好,系数拟合在大多数随机分布时较分位数回归好,当随机截距和随机误差的分布为Chi-AL、Chi-N、Chi-Chi、Chi-t时,分层分位数回归和分位数回归系数估计值的偏倚都较大,估计效果均不好。当多个自变量时,分层分位数回归的截距和系数拟合效果都较分位数回归好,因此在处理分层数据时,使用分层分位数回归在大多数情况下较分位数回归有优势。分层分位数回归在实例应用中可以考虑到数据的层级结构,对不同分位数下自变量对因变量的影响刻画更加细致,进而更全面地发现影响作用。