论文部分内容阅读
医学研究领域中,许多类型的资料都具有层次或等级结构。例如,动物或人类遗传研究就面临自然的等级,这里,子女或幼崽在家庭内成为一组。再如,在几个随机选择的中心或组进行临床试验所产生的数据。这类资料的一个显著特点是:个体值之间不全独立,同级同单位个体间相似,相关程度高。由于独立假设不成立,用传统统计方法进行分析,将会导致有偏的参数估计,Ⅰ型错误的增加,甚至可能得出错误的结论。多水平统计模型是目前广泛应用于层次结构数据的统计模型。进行多水平分析,不仅可获得回归系数的无偏估计,提供正确的标准误、可信区间和假设检验;还可引入在各个水平上测量到的协变量,在一个模型中同时进行分析,综合所有的信息,从而得出正确的结论。本文只涉及多水平正态回归模型。拟合多水平正态回归模型有一个重要的假定,即:应变量服从或近似服从正态分布,或者可以通过某种转化使之服从正态分布。事实上,假定的违反可以发生在很多情况下,诸如:医学应用中的有些数据,其因变量虽然是连续的,但由于测量受到某种限制,在某一点上被截取了。这样,因变量处于某一范围的样本观测值都用界值代替,从而使因变量形成连续分布和离散分布的混合分布,即截取分布。若仍对资料拟合多水平正态回归模型,将会得出有偏的参数估计,甚至可能得出错误的结论。因此,本文提出“多水平截取正态回归模型”,它是多水平正态回归模型与截取正态回归模型的结合。通过模拟研究,比较了对二水平应变量被左截取的资料分别拟合二水平左截取正态回归模型和二水平正态回归模型,参数点估计及参数标准误估计结果;也比较了不同的一、二水平样本量及内相关系数条件下,对二水平应变量被左截取的资料拟合二水平左截取正态回归模型,参数点估计及参数标准误估计结果,得出结论:(1)对潜在二水平应变量服从或近似服从正态分布而实际观测值被左截取的资料,拟合二水平正态回归模型,参数点估计值相对偏差百分比很大(固定系数、方差成分平均偏差分别为5.25%、4.79%),参数标准误估计也不准确(参数95%可信区间非覆盖率都接近或等于1);拟合二水平左截取正态回归模型则可以获得无偏的参数估计及正确的参数标准误估计(固定系数及方差成分平均偏差分别为0.0026%、0.027%,参数95%可信区间非覆盖率均小于0.05,平均为0.02)。(2)当二水平样本含量≥50,一水平样本含量=30,内相关系数=0.2时,对于获得二水平截取正态回归模型准确的参数点估计、参数标准误估计结果是合适的。