论文部分内容阅读
线性模型在现代统计方法中起着核心作用,这些模型能够在整个定义范围内或至少分段地近似度量数据结构。在假设总体分布形式已知的情况下,通过样本来进行总体分布的参数估计是建立线性模型最为关键的部分之一,其直接影响统计模型的正确性。为了提高参数估计的准确度,学者们做了许多研究,目前已有很多切实可行的参数估计方法被采用。本文中提出了两种新的稳健参数估计方法,能解决数据中同时存在复共线性与异常值的问题,还提出了一种新的稳健变量选择方法,能在各种未知的数据分布类型下进行变量选择。首先考虑当所有解释变量都是重要变量的情况。我们结合前人的估计,提出了两种新的估计形式:1、稳健的双参数估计(Robust Two Parameters estimator,RTPE);2、稳健的约束Liu估计(Robust Restrict Liu estimator,RRLE)。相较于单纯的M稳健估计方法和单纯的Liu估计,岭估计,约束Liu估计,双参数估计以及带约束的Liu估计等,这两种估计形式对于数据中同时存在复共线性和异常值的情况均具有很好的估计效果,同时也优于过去提出的稳健Liu估计,稳健双参数估计等。本文分别在均方误差以及均方误差矩阵准则下比较了新的估计形式与非稳健形式,稳健Liu估计,稳健岭估计以及与约束Liu估计之间的优越性。数值模拟实验表明,在不同的参数条件下,新估计优于与之相比较的其他估计,并且在之后的数据实例中同样证明了新估计的优越性。说明本文提出的新估计具有实际应用的可行性。另外,当解释变量中存在冗余变量,同时解释变量中存在异常值或者误差是重尾分布时,我们用采用稳健变量选择法进行参数估计。在传统变量选择的基础上,首先介绍加权的LAD-Lasso方法和稳健自适应性Lasso方法这两种稳健变量选择方法的思想以及参数选取方式,接着在其基础上提出一种新的稳健变量选择方法MIXW-R,并介绍了参数的选取与算法的实现,最后分别在误差项为正常数据,厚尾分布以及变量存在异常值的线性模型下,比较了新的稳健变量选择方法与前文提到的稳健或非稳健变量选择方法。最后通过数值模拟,验证了在不同的数据状态下,新估计方法具有更优的性能。