论文部分内容阅读
纵向数据频繁出现于流行病学、生物学、经济学和社会科学等领域中.该数据下的个体随时间重复观测,故同一个体的观测间具有内在的相关性.对这种组内协方差矩阵常使用工作结构,但其错误指定可能会导致均值参数估计的效严重降低.而且,协方差矩阵本身可能引起科学研究的兴趣,但会遭受正定性约束和矩阵中参数个数的高维问题.此外,如果考虑多响应纵向数据,则常会遭遇更复杂的协方差结构.最近,有一种很流行的处理上述协方差结构的方法,即基于协方差结构的Cholesky分解建立回归模型.然而,现存方法主要关注单响应纵向数据下的修正的Cholesky方法.值得进一步研究其他的Cholesky分解方法,并考虑更复杂的多响应纵向数据.本文关注的是在单响应纵向数据下,基于自回归滑动平均Cholesky分解或替代的Cholesky分解建模广义估计方程中的协方差结构,基于修正的Cholesky分解和指数平方损失函数发展稳健于离群值或重尾分布的估计方法;在多响应纵向数据下建立新的Cholesky分解方法.具体言之,本文的主要研究内容如下.首先受到自回归滑动平均Cholesky分解或替代的Cholesky分解的启发,为平衡或非平衡纵向数据下联合均值-协方差模型中的回归参数估计发展了广义估计方程.第一,自回归滑动平均Cholesky分解是通过合并自回归Cholesky分解和滑动平均Cholesky分解得到的,因而能够参数化更一般的协方差结构.此分解中的输入具有合理的统计解释,并且通过此分解可以自动满足协方差矩阵的正定性约束.之后这些输入可由回归模型建模,其回归参数可由拟Fisher迭代算法计算.均值和协方差模型中的参数估计皆被证明是相合和渐近正态的.然后通过模拟研究和实际数据分析考察了所提方法.第二,替代的Cholesky分解与某一个体上的“标准化”重复观测的滑动平均解释密切相关,这导致相关系数矩阵的估计稳健于新息方差模型的错误指定.随后建立了广义估计方程,发展了计算算法,证明了均值和协方差模型中参数估计的渐近性质,并通过数值研究评估了所提方法的表现.当纵向数据中包含离群值时,已知经典的最小二乘方法是不稳健的.为解决这一问题,已有文献在纵向数据下研究了具有调节参数的指数平方损失函数.但就目前所知而言,还没发现有文献在纵向数据下的均值-协方差回归分析框架内,利用指数平方损失函数研究关于离群值稳健的估计方法.第一,在纵向数据下,基于指数平方损失函数,提出了均值和广义自回归参数的模型参数的稳健估计方法.所提估计量可在一定条件下被证明是渐近正态的.此外,发展了一种迭代的重加权最小二乘算法来计算参数估计,并通过数据驱动的方法选择出适当的调节参数,达到了稳健性和有效性之间的平衡.然后通过模拟研究和实际数据分析考察了所提方法的有限样本表现.第二,将均值模型从线性推广为部分非线性.然后发展了稳健的估计方法,提出了一种计算参数估计的较小-极大算法,并通过数值研究考察了所提方法的表现.多响应纵向数据分析经常出现于统计学家和实际工作者的工作中.由于多响应间复杂的相关结构,建模协方差矩阵是很有挑战性的.针对这一任务,已有较多有效的基于Cholesky分解的方法得到了研究.但就目前所知,对多响应间协变结构的直接解释并未得到很好的研究.这里基于二响应纵向数据相关系数矩阵的三角参数化,提出了一种联合均值-方差-相关系数建模方法.所提无约束参数化方法能够自动消除相关系数矩阵的正定性约束,并导致了前述的直接解释.此外,标准差矩阵是对角的而非分块对角的,故该矩阵的正定性约束容易满足.所提分解的输入由回归模型建模,并得到了联合模型中回归参数的极大似然估计.证明了所得估计是相合和渐近正态的.模拟研究和对杨树生长数据的分析说明所提方法表现良好.在多响应纵向数据下,很少有方法关注相关系数矩阵的稳健估计.这里为多响应纵向数据的协方差结构提出了一种替代的Cholesky分块分解方法.新的无约束参数化方法能够自动消除协方差矩阵的正定性约束,并使相关系数矩阵的估计稳健于嵌套新息方差矩阵模型的错误指定.注意到新的无约束参数具有合理的统计解释,于是利用回归模型进行建模,并由拟Fisher迭代算法计算联合均值-协方差模型中回归参数的极大似然估计.所得估计被证明是相合和渐近正态的.最后通过模拟研究和实际数据分析评估了新方法的有限样本表现.