论文部分内容阅读
高维数据在生物信息学、生物医学、计量经济学和机器学习等领域频繁出现,它使经典的统计方法遭受了较大的冲击,是目前统计学理论和应用研究中面临困难最多、挑战最严峻的研究领域之一。对高维数据的研究,通常情况需要假定真实模型位于一个低维空间(至少协变量维数要比样本容量低),也就是常说的稀疏性(sparsity)假定。然后再按照一定的规则选择变量进行降维。通过选择变量,将对因变量根本没有影响或者影响较Υυ小的变量剔除,保留影响较大的变量,从而建立简洁的模型。本论文在对前人已有研究成果进行综合分析的基础上,主要考察随机误差项分布未知时的高维线性模型的变量选择问题。所采用的方法和思想主要是Fan和Lv方法和迭代安全独立筛选方法,与Chen,Variyath和Abraham的调整经验似然(AEL)方法的有机结合。从理论上进一步说明Fan和Lv的SIS方法和ISIS方法在误差项不服从正态分布时也是成立的,并且具有较好的安全筛选渐近性质。即在一定条件下可以得到:P(M*СMγ)=1-O(exp(-Cn<1-2κ>/log(n))),这里M*为我们感兴趣的真实稀疏模型的指标集,Mγ为自变量X与因变量Y相关性最强的前[nγ]个变量所对应下标构成的指标集,其中γ∈(0,1),1-2κ>0。由此可知,对充分大的样本容量n,选择的变量包含真实变量的概率接近于1。从算法上分别给出了SIS方法、迭代SIS方法与调整经验似然有机结合的SIS+AEL算法与迭代SIS+AEL算法。SIS+AEL算法思路为:先选出与因变量相关性较强的[nγ]个变量,然后由选择出来的变量与因变量利用线性模型调整经验似然比函数,得到相应的经验似然比的AIC和BIC版本,最后通过经验似然的AIC或BIC标准寻找出最优的模型,从而完成变量选择。迭代SIS+AEL算法思路如下:先用SIS+AEL方法从x1,…,xp中得到初步的变量xi1,…,xim1,然后建立y与xi1,…,xim1之间的线性模型,接着对其残差y-(xi1βi1+…+ xim1βim1)和剩余的p-m1个变量再应用SIS+AEL方法选择一部分变量,如此循环,直至得到我们满意的变量为止。这个算法既保留了原有方法的渐近性质,又降低了实际中对误差项的分布要求,取长补短、计算简单、想法直观。最后,我们对所提出的方法作了模拟说明。模拟结果表明,我们的算法在对高维线性模型作变量选择时,若误差项服从的是正态分布,其包含真实模型的比率与LASSO(现阶段比较流行的方法)相差不大;而对于误差项不服从正态分布时,其结果整体上要略好于LASSO。本文特色主要体现在以下几点:1.对已有的一些方法进行重新组合,取长补短,降低了计算的工作量,拓宽了应用的范围。2.去掉误差项是正态分布的限制,Fan和Lv(2008)的SIS和ISIS方法尽管简单,但对误差项要求是正态分布,只有这样才能满足其相应的性质。本文从理论上说明误差项不必是正态分布,在较宽的条件下也可以得到SIS和ISIS方法相同的结论。对指标维数p降到样本容量n以下的情况,我们选择经验似然方法,无须对误差项作任何分布假定。3.采用调整经验似然方法作变量选择克服了经验似然的一些缺陷,众所周知,经验似然在使用时有一前提约束,即参数θ构造的估计方程Efg(y,θ)=0中,{g(yi,θ),i=1,…,n}的凸包必包含0点并且0为其一个内点。为避免此条件不满足时所引起的系统偏差,我们选用了Chen,Variyath和Abraham(2008)的调整经验似然方法。