论文部分内容阅读
怎样推断在给定某些随机变量(自变量)时另一个变量(响应变量)的分布是统计中的重要问题。当自变量的个数很大时,用响应变量直接对自变量进行拟合,将很可能面临“维数诅咒”。在许多场合下,因变量其实仅仅与原自变量的几个线性组合相关联,换言之,若给定这些线性组合的值,则因变量将与所有自变量独立。若能找出这些原自变量的线性组合,以因变量对这些组合进行回归,则高维自变量引起的问题即可得到解决。充分降维的任务正是在不预先假定参数模型的前提下,寻找这些原自变量的线性组合。近年来,由于各学科数据维度和规模日渐增长,降维问题广受瞩目。不依赖模型假设的充分降维问题已成为统计学界关注的热点。由于充分降维(SDR)是高维非参数回归问题的一个重要阶段,其结果是进一步研究回归的基础,故其稳健性在建模过程中尤其重要,因而研究充分降维方法的影响分析非常必要。影响分析理论是统计诊断理论的一个重要组成部分,该理论主要关注统计推断结果对模型初始设定的敏感程度。充分降维理论中的影响分析探索充分降维方法的稳健性,即研究模型中的某些方面(比如:某些数据点)是否对这些降维方法的结果有超出平均水平甚多的影响。某种意义上,影响分析是在评价降维的结果是否可以信赖。然而,由于充分降维理论中的统计推断结果是向量空间,现有的影响分析方法不适用于充分降维理论。本文在单指标模型下,研究了分布加权偏最小二乘估计的影响分析,在多指标模型下,研究累计切片估计降维方法的影响分析,通过数据删除方法和局部影响分析分析方法,解决了强影响点,特别是特殊强影响模式(如:掩盖效应)的探测问题。研究的主要成果有:1、在分布加权偏最小二乘估计和累计切片估计的影响分析中,引入Hooper (1959)提出的正则迹相关系数构造了一个空间位移函数,用于度量扰动前后充分降维空间估计之间的差异。该差异度量对于空间基向量的选取具有不变性,且充分考虑了自变量的协方差结构和降维空间的统计意义。2、依托上述空间位移函数,提出了一个拟曲率的概念,用于度量扰动对降维空间估计的局部影响,并给出了求取使得拟曲率达到最大的扰动方向的方法。该最大扰动方向经过标准化后即可视为影响评价统计量。上述研究成果是对Cook(1986)提出的基于似然位移函数的正则曲率方法的一种推广。数据模拟结果显示,我们提出的方法对于强影响点的探测效果比较理想。