基于Bayes方法和图限制下正规化方法的变量选择问题及其在基因组数据中的应用

来源 :山东大学 | 被引量 : 1次 | 上传用户:flfi2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几十年内,无论是在理论统计的研究工作中还是在现实的统计应用领域,变量选择问题一直是个热点问题且受到持续的关注。但是最近几年内,随着科学技术的发展,大量高维数据的产生,给传统的变量选择方法带来了很大的挑战。比如,在生物信息学致病基因选择问题中,往往有成千上万的基因作为解释变量,但是往往用来做训练和检验的样本(病人观测数据)总共只有不足一百个。类似这样“大p,小n”的数据给统计推断带来了“维数灾难”,致使大多数经典统计方法变的不稳健或者计算效率低下。   高维问题吸引大量统计学家做了大量研究工作,并且提出了一些成功的理论和方法。在我们的整篇论文中,我们也将要讨论高维变量选择这个富有挑战而且颇具吸引力的问题。特别的,我们是在线性回归的框架下展开研究的,并且主要应用于基因组数据的分析。考虑如下的线性模型y=xTβ*+∈,这里y是响应变量;x=(x1,x2,…,xp)T是p维解释变量;∈是误差项,服从以零为均值,δ为标准差的正态分布;β*=(β1*,β2*,…,βp*)T是回归系数向量的真值。整篇文章中,我们假设响应变量的维数p可以远大于样本个数n。响应变量y和解释变量x的n次观测记为:Y=(y1,y2,…,yn)T和X=(X1T,X2T,…,XnT)T,这里Xi=(xi1,xi2,…,xip)是解释变量x的第i次观测。   我们主要从以下两个方面讨论高维变量选择问题:   1.Bayes变量选择方法的相合性研究。   不同于传统的频率学派的方法,在第二章我们将要研究Bayes变量选择方法。在多领域的高维数据应用分析中,Bayes变量选择方法取得了至少相当的,甚至优于频率学派方法的成果。这里我们将要从理论方面探讨其中的原因:为什么Bayes变量选择方法在实际应用中取得如此成果。   大多数文献中,Bayes变量选择方法的构思可以阐述为;首先,定义一个辅助的指示变量γ=(γ1,γ2,…,γp)用来表示选定的子模型.指示变量γ的元素满足选定某个子模型,γ后,我们可以选出这个子模型所对应的解释变量xγ,同时可以定义变量系数βγ∈R|γ|,这里vγ表示为向量v的一个子向量,确切的说是由满足γj=1的所有下标j所对应的v的元素组成的子向量;|v|=∑j|vj|表示向量v的L1范数.因此,在线性模型下变量选择和模型拟合问题可以转化为选定一个子模型γ,然后确定模型系数βγ。其次,在观测数据的条件下,给定参数γ和βγ一个合适的先验分布,我们可以得到参数的后验分布并且选择具有比较大后验概率值的子模型进行统计推断。   在第二章中,我们假设解释变量服从均匀分布,因此y和x的联合密度函数满足:同时假定回归系数真值β*是稀疏的,满足个稀疏条件相对来说更加符合现实情况一所有的解释变量对响应变量都有一定的影响,或多或少,但是只有几个解释变量的影响比较大。在这种情况下,不存在一部分回归系数非零,其余回归系数为零的所谓的“真模型”,因此变量选择的任务就是选出一个相比于全模型来说简单且更具解释性和预测性的模型.在以上假定下,我们给出了参数γ和βγ先验分布πn的两个条件,其中条件一要求πn在真模型的近似区域取值足够大,条件二要求πn在复杂模型上的取值比较小.上述先验下,后验分布πn(γ,dβγ|Y,X)具有良好的性质,于真正的回归函数μ0(x)=Ef0(f|x),即回归函数的相合性表明了Bayes变量选择方法可以成功的辨别出一些后验概率值比较大的子模型,这有效的缩小了变量选择范围,具有重要实际意义。假设子模型γ在所有要考虑的子模型范围内具有最大的后验概率值πn(γ|Y,X)并且βA是基于模型γ的回归系数真值β*的后验估计.第二章中我们证明了特定条件下,子模型γ收敛于真模型通过以下方式:这里的L2相合性暗示了Bayes变量选择方法能以很高的概率选出重要的变量,并且错选入模型的变量往往具有很小的系数。   最后,模拟数据分析以及实际白血病数据分析表明Bayes变量选择方法的表现足很有竞争力的,并且非常稳健。   2.基于图限制下的变量选择和参数估计研究及其在高维基因组数据中的应用   图或者网络是描述生物信息表达的一种常见方式。在生物学中,许多不同的生命过程可以通过图(比如:蛋白网、代谢通路)的形式表达出来。在图中相互连接的基因彼此之间具有很高的相关性并且以生物模块的形式影响着临床表现。在第三章中,我们将结合基因组数据中已有的图的先验信息,进行图限制下正规化的模型拟合以及选择与疾病相关的基因组。   受基因组数据往往具有图结构的启发,Li et al。(2008 and2010)最早在回归模型的框架下提出了图限制下正规化的方法,即Grace方法,以充分利用图信息进行变量选择。Grace方法的工作原理可以简述为在Lasso定义的基础上添加了一个包含基因组数据中图信息的惩罚.如此这般,Grace既保持了Lasso变量选择的稀疏性,又增加了图中基因系数的平滑性,保证了选择整组基因的能力。   类似于Grace,我们定义了一个新的图限制下正规化方法(N-Grace)如下:是目标函数.但是和Grace不同的是我们的方法并没有要求图中基因的系数平滑。我们的惩罚函数只要求图中基因的系数同时变为零(或者非零),如果基因所在的子图被证明是与回归模型无关的(或者相关的)。单就变量选择来说,N-Grace应该是比Grace更加合理。   至于求解N-Grace,我们采用“一次一个坐标的”的单坐标下降算法。在每次迭代中,变化某一个坐标下的参数同时固定其他坐标上的参数,使得目标函数Q*(β)达到最小,来确定此次迭代中最优的参数估计。最后,我们通过模拟数据分析和真实的SNP数据分析来验证我们的方法。   3.相关变量下的Bayes变量选择以及随机搜索算法   在第四章,我们将要考虑解释变量相关条件下的Bayes变量选择问题。给定响应变量y和解释变量x=(x1,x2,…,xn)T,我们假定最多只有pmax个解释变量与响应变量y相关。我们把这p个解释变量看作是某个网络图中的顶点,其中相关的解释变量之间有边进行连接。受Li et al。(2008,2010)的启发,我们尝试着把解释变量之间网络图的信息加到回归系数的先验当中。由解释变量连接而成的加权图我们记为G=(V E,W),在第三章中我们对其进行了具体定义。给定一个模型γ,我们把Li et al。(2008 and2010)中图限制的方法融合到Bayes框架下,具体说来就足我们对回归系数βγ使用了如下的先验分布:   因为我们假定最多只有pmax个解释变量与响应变量y相关,因此只有()个子模型在我们的考虑范围之内,这远远小于所有可能的子集个数2p。我们记Rpmax为需要考虑的模型的集合,即所有解释变量个数小于pmax的模型的集合。我们声明在本章中所有提及的模型γ都限定在集合Rpmax中。我们只需要对集合Rpmax中的模型考虑加以合适的先验分布,并且在没有其他有用先验信息的条件下我们对其中所有的模型施以相同的先验分布:   在给出上面的参数先验分布和样本观测数据D的前提下,我们可以得出模型γ的后验分布:接下来BVS所需要做的事情就是找出具有最大后验概率的子模型。   在统计计算方面,我们摒弃了传统的MCMC算法,转而提出了一种新的随机搜索方法M-BMSS。我们以此方法进行搜寻具有最大后验概率的子模型。
其他文献
关联规则挖掘是数据挖掘领域中一个重要的研究方向,揭示数据集中不同领域或属性间的有价值联系,具有重要的理论价值和广泛的应用前景。本文系统地讨论了关联规则挖掘的相关理
基于身份的密码体制可弥补传统的基于证书密码体制的不足,因此近年来发展迅速。基于身份密码体制的基本工具是双线性对,其有效实现取决于双线性对的计算效率。但就目前而言,双线
我国是世界上煤炭储量最丰富的国家之一,煤炭能源在国民经济发展中起着重要的基础作用。随着煤炭资源开采强度的不断加大,煤层开采效率越来越受到关注。水溶液对煤岩损伤弱化
近年来,随着消费者环保意识的增强,非政府环保组织的监督,政府不断出台措施鼓励厂商生产绿色环保的产品。再制造作为绿色制造的典型形式,已经受到越来越多制造商的关注。再制造产
通过人们对社交系统,信息系统等的整体研究,发现它们背后都可以用复杂网络来表示,复杂网络除了具有无标度特性和小世界特性外,社区结构也是其中一种重要的结构特性.社区结构中的
随着科学的发展和工程技术的进步,单纯的微分方程不足以对某些复杂系统进行正确的描述,这就促使人们去研究由微分方程组和代数方程组混合而成的系统,即微分-代数方程组(简记
人们对系统可靠性、安全性以及有效性等性能要求的日益提高为现代复杂工程系统的运行环境带来了前所未有的挑战,极大地增加了系统元部件和子系统故障发生的可能性。潜在的故
20世纪后期,随着科学技术的飞速发展,启发式智能算法脱颖而出,通过模拟生物的行为或者自然现象来解决问题,已经逐渐成为整个优化领域的一个热点.并且,很多群智能优化算法已经