论文部分内容阅读
模型的变量选择问题是现代统计学中的一个重要问题,前人做了很多研究,特别是Lasso以及相关改进方法的研究已成为当今的热门问题.考虑到各变量间的次序作用,Tibshirani和Saunders(2005)借鉴了Land和Friedman(1996)关于系数差分的惩罚,与Lasso的惩罚相结合,提出了Fused Lasso.这种方法不但满足了模型系数的稀疏性要求,而且实现了系数差分的稀疏性,产生一个分段平台式的解.本文将研究系数差分的平方和惩罚与Lasso估计的惩罚相结合的一种变量选择方法,即L2-2-Fused Lasso.这种方法既满足了模型系数的稀疏性要求,又实现了对系数差分的压缩,但不会将系数差分压缩为0.理论上,我们将研究L2-Fused Lasso估计是否具有Oracle性质;应用上,主要通过实例观察这种方法的表现,研究它与Lasso, Fused Lasso等其他变量选择方法的不同.本文首先介绍了研究背景和相关变量选择方法的发展状况.第二章主要是背景知识,介绍了线性模型和Lasso, Elastic Net, Fused Lasso这些变量选择方法.在第三章我们给出了L2-2-Fused Lasso估计的定义,并把它扩展为Lasso的形式,说明它可以解决p》n的问题.然后我们详细的证明了L2-2-Fused Lasso估计的渐近性,并对它是否具有一致性进行讨论,发现它在最优的收敛效率下,不具有一致性.第四章我们通过糖尿病案例和白血病基因案例两个实例来观察L2-Fused Lasso估计的表现,发现它在解决p》n的问题和变量间存在一定次序的情况时表现良好.文章最后对全文进行了总结,并提出了有待进一步研究的问题.