论文部分内容阅读
在过去的几十年内,无论是在理论统计的研究工作中还是在现实的统计应用领域,变量选择问题一直是个热点问题且受到持续的关注。但是最近几年内,随着科学技术的发展,大量高维数据的产生,给传统的变量选择方法带来了很大的挑战。比如,在生物信息学致病基因选择问题中,往往有成千上万的基因作为解释变量,但是往往用来做训练和检验的样本(病人观测数据)总共只有不足一百个。类似这样“大p,小n”的数据给统计推断带来了“维数灾难”,致使大多数经典统计方法变的不稳健或者计算效率低下。
高维问题吸引大量统计学家做了大量研究工作,并且提出了一些成功的理论和方法。在我们的整篇论文中,我们也将要讨论高维变量选择这个富有挑战而且颇具吸引力的问题。特别的,我们是在线性回归的框架下展开研究的,并且主要应用于基因组数据的分析。考虑如下的线性模型y=xTβ*+∈,这里y是响应变量;x=(x1,x2,…,xp)T是p维解释变量;∈是误差项,服从以零为均值,δ为标准差的正态分布;β*=(β1*,β2*,…,βp*)T是回归系数向量的真值。整篇文章中,我们假设响应变量的维数p可以远大于样本个数n。响应变量y和解释变量x的n次观测记为:Y=(y1,y2,…,yn)T和X=(X1T,X2T,…,XnT)T,这里Xi=(xi1,xi2,…,xip)是解释变量x的第i次观测。
我们主要从以下两个方面讨论高维变量选择问题:
1.Bayes变量选择方法的相合性研究。
不同于传统的频率学派的方法,在第二章我们将要研究Bayes变量选择方法。在多领域的高维数据应用分析中,Bayes变量选择方法取得了至少相当的,甚至优于频率学派方法的成果。这里我们将要从理论方面探讨其中的原因:为什么Bayes变量选择方法在实际应用中取得如此成果。
大多数文献中,Bayes变量选择方法的构思可以阐述为;首先,定义一个辅助的指示变量γ=(γ1,γ2,…,γp)用来表示选定的子模型.指示变量γ的元素满足选定某个子模型,γ后,我们可以选出这个子模型所对应的解释变量xγ,同时可以定义变量系数βγ∈R|γ|,这里vγ表示为向量v的一个子向量,确切的说是由满足γj=1的所有下标j所对应的v的元素组成的子向量;|v|=∑j|vj|表示向量v的L1范数.因此,在线性模型下变量选择和模型拟合问题可以转化为选定一个子模型γ,然后确定模型系数βγ。其次,在观测数据的条件下,给定参数γ和βγ一个合适的先验分布,我们可以得到参数的后验分布并且选择具有比较大后验概率值的子模型进行统计推断。
在第二章中,我们假设解释变量服从均匀分布,因此y和x的联合密度函数满足:同时假定回归系数真值β*是稀疏的,满足个稀疏条件相对来说更加符合现实情况一所有的解释变量对响应变量都有一定的影响,或多或少,但是只有几个解释变量的影响比较大。在这种情况下,不存在一部分回归系数非零,其余回归系数为零的所谓的“真模型”,因此变量选择的任务就是选出一个相比于全模型来说简单且更具解释性和预测性的模型.在以上假定下,我们给出了参数γ和βγ先验分布πn的两个条件,其中条件一要求πn在真模型的近似区域取值足够大,条件二要求πn在复杂模型上的取值比较小.上述先验下,后验分布πn(γ,dβγ|Y,X)具有良好的性质,于真正的回归函数μ0(x)=Ef0(f|x),即回归函数的相合性表明了Bayes变量选择方法可以成功的辨别出一些后验概率值比较大的子模型,这有效的缩小了变量选择范围,具有重要实际意义。假设子模型γ在所有要考虑的子模型范围内具有最大的后验概率值πn(γ|Y,X)并且βA是基于模型γ的回归系数真值β*的后验估计.第二章中我们证明了特定条件下,子模型γ收敛于真模型通过以下方式:这里的L2相合性暗示了Bayes变量选择方法能以很高的概率选出重要的变量,并且错选入模型的变量往往具有很小的系数。
最后,模拟数据分析以及实际白血病数据分析表明Bayes变量选择方法的表现足很有竞争力的,并且非常稳健。
2.基于图限制下的变量选择和参数估计研究及其在高维基因组数据中的应用
图或者网络是描述生物信息表达的一种常见方式。在生物学中,许多不同的生命过程可以通过图(比如:蛋白网、代谢通路)的形式表达出来。在图中相互连接的基因彼此之间具有很高的相关性并且以生物模块的形式影响着临床表现。在第三章中,我们将结合基因组数据中已有的图的先验信息,进行图限制下正规化的模型拟合以及选择与疾病相关的基因组。
受基因组数据往往具有图结构的启发,Li et al。(2008 and2010)最早在回归模型的框架下提出了图限制下正规化的方法,即Grace方法,以充分利用图信息进行变量选择。Grace方法的工作原理可以简述为在Lasso定义的基础上添加了一个包含基因组数据中图信息的惩罚.如此这般,Grace既保持了Lasso变量选择的稀疏性,又增加了图中基因系数的平滑性,保证了选择整组基因的能力。
类似于Grace,我们定义了一个新的图限制下正规化方法(N-Grace)如下:是目标函数.但是和Grace不同的是我们的方法并没有要求图中基因的系数平滑。我们的惩罚函数只要求图中基因的系数同时变为零(或者非零),如果基因所在的子图被证明是与回归模型无关的(或者相关的)。单就变量选择来说,N-Grace应该是比Grace更加合理。
至于求解N-Grace,我们采用“一次一个坐标的”的单坐标下降算法。在每次迭代中,变化某一个坐标下的参数同时固定其他坐标上的参数,使得目标函数Q*(β)达到最小,来确定此次迭代中最优的参数估计。最后,我们通过模拟数据分析和真实的SNP数据分析来验证我们的方法。
3.相关变量下的Bayes变量选择以及随机搜索算法
在第四章,我们将要考虑解释变量相关条件下的Bayes变量选择问题。给定响应变量y和解释变量x=(x1,x2,…,xn)T,我们假定最多只有pmax个解释变量与响应变量y相关。我们把这p个解释变量看作是某个网络图中的顶点,其中相关的解释变量之间有边进行连接。受Li et al。(2008,2010)的启发,我们尝试着把解释变量之间网络图的信息加到回归系数的先验当中。由解释变量连接而成的加权图我们记为G=(V E,W),在第三章中我们对其进行了具体定义。给定一个模型γ,我们把Li et al。(2008 and2010)中图限制的方法融合到Bayes框架下,具体说来就足我们对回归系数βγ使用了如下的先验分布:
因为我们假定最多只有pmax个解释变量与响应变量y相关,因此只有()个子模型在我们的考虑范围之内,这远远小于所有可能的子集个数2p。我们记Rpmax为需要考虑的模型的集合,即所有解释变量个数小于pmax的模型的集合。我们声明在本章中所有提及的模型γ都限定在集合Rpmax中。我们只需要对集合Rpmax中的模型考虑加以合适的先验分布,并且在没有其他有用先验信息的条件下我们对其中所有的模型施以相同的先验分布:
在给出上面的参数先验分布和样本观测数据D的前提下,我们可以得出模型γ的后验分布:接下来BVS所需要做的事情就是找出具有最大后验概率的子模型。
在统计计算方面,我们摒弃了传统的MCMC算法,转而提出了一种新的随机搜索方法M-BMSS。我们以此方法进行搜寻具有最大后验概率的子模型。