高维线性模型的变量选择

来源 :广西师范大学 | 被引量 : 2次 | 上传用户:Stephanie1121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高维数据在生物信息学、生物医学、计量经济学和机器学习等领域频繁出现,它使经典的统计方法遭受了较大的冲击,是目前统计学理论和应用研究中面临困难最多、挑战最严峻的研究领域之一。对高维数据的研究,通常情况需要假定真实模型位于一个低维空间(至少协变量维数要比样本容量低),也就是常说的稀疏性(sparsity)假定。然后再按照一定的规则选择变量进行降维。通过选择变量,将对因变量根本没有影响或者影响较Υυ小的变量剔除,保留影响较大的变量,从而建立简洁的模型。本论文在对前人已有研究成果进行综合分析的基础上,主要考察随机误差项分布未知时的高维线性模型的变量选择问题。所采用的方法和思想主要是Fan和Lv方法和迭代安全独立筛选方法,与Chen,Variyath和Abraham的调整经验似然(AEL)方法的有机结合。从理论上进一步说明Fan和Lv的SIS方法和ISIS方法在误差项不服从正态分布时也是成立的,并且具有较好的安全筛选渐近性质。即在一定条件下可以得到:P(M*СMγ)=1-O(exp(-Cn<1-2κ>/log(n))),这里M*为我们感兴趣的真实稀疏模型的指标集,Mγ为自变量X与因变量Y相关性最强的前[nγ]个变量所对应下标构成的指标集,其中γ∈(0,1),1-2κ>0。由此可知,对充分大的样本容量n,选择的变量包含真实变量的概率接近于1。从算法上分别给出了SIS方法、迭代SIS方法与调整经验似然有机结合的SIS+AEL算法与迭代SIS+AEL算法。SIS+AEL算法思路为:先选出与因变量相关性较强的[nγ]个变量,然后由选择出来的变量与因变量利用线性模型调整经验似然比函数,得到相应的经验似然比的AIC和BIC版本,最后通过经验似然的AIC或BIC标准寻找出最优的模型,从而完成变量选择。迭代SIS+AEL算法思路如下:先用SIS+AEL方法从x1,…,xp中得到初步的变量xi1,…,xim1,然后建立y与xi1,…,xim1之间的线性模型,接着对其残差y-(xi1βi1+…+ xim1βim1)和剩余的p-m1个变量再应用SIS+AEL方法选择一部分变量,如此循环,直至得到我们满意的变量为止。这个算法既保留了原有方法的渐近性质,又降低了实际中对误差项的分布要求,取长补短、计算简单、想法直观。最后,我们对所提出的方法作了模拟说明。模拟结果表明,我们的算法在对高维线性模型作变量选择时,若误差项服从的是正态分布,其包含真实模型的比率与LASSO(现阶段比较流行的方法)相差不大;而对于误差项不服从正态分布时,其结果整体上要略好于LASSO。本文特色主要体现在以下几点:1.对已有的一些方法进行重新组合,取长补短,降低了计算的工作量,拓宽了应用的范围。2.去掉误差项是正态分布的限制,Fan和Lv(2008)的SIS和ISIS方法尽管简单,但对误差项要求是正态分布,只有这样才能满足其相应的性质。本文从理论上说明误差项不必是正态分布,在较宽的条件下也可以得到SIS和ISIS方法相同的结论。对指标维数p降到样本容量n以下的情况,我们选择经验似然方法,无须对误差项作任何分布假定。3.采用调整经验似然方法作变量选择克服了经验似然的一些缺陷,众所周知,经验似然在使用时有一前提约束,即参数θ构造的估计方程Efg(y,θ)=0中,{g(yi,θ),i=1,…,n}的凸包必包含0点并且0为其一个内点。为避免此条件不满足时所引起的系统偏差,我们选用了Chen,Variyath和Abraham(2008)的调整经验似然方法。
其他文献
纵向数据广泛应用于医学、生物学、社会学和经济学等诸多领域,纵向数据之所以得到如此广泛地应用,是由于纵向数据是同一个个体在不同时间观测若干次而得到的由截面和时间序列融
在科学和工程应用领域中,分数阶偏微分方程能更精确的描述动力系统的实际现象。然而求解这些模型的有效的数值方法和数值分析却仍处于初级阶段。在这篇文章里主要研究带有子
本文主要对变分不等式的超梯度算法及它的改进算法进行分析和讨论。   第二章将Wang,Xiu和Zhang[1]改进的超梯度算法推广到无穷维希尔伯特空间,并讨论改进后的超梯度算法所
在动力系统中,时滞总是不可避免的存在。另外,在实际工业过程中,要遇到各种不确定性,诸如未建模动态、结构性的参数不确定性、工作环境的变化、降阶及线性化近似以及外部干扰
矩问题是概率理论的一个重要分支,它研究在给定随机变量的部分信息,如均值,方差,众数的条件下,估计该随机变量某类函数的均值和方差的上下界,包括估计该随机变量的分布函数的上下界