论文部分内容阅读
随着科技对生活和工业的改变,数据的来源越来越丰富,数据量也在以惊人的速度增长.海量的数据不仅使我们可以拥有比以往更多的数据进行建模分析,模型的精度也因此可以得到大幅提升.然而,如此巨量数据的统计分析仍然具有挑战;一方面,收集的变量越来越多,尽管这些冗余的变量不会过分影响模型的预测能力,但由于相当大一部分变量与模型无关,因此会降低模型本身的解释能力;另一方面,虽然样本量在以指数级的速度增长,但是冗余数据也在相应地增加,这些数据不仅对模型估计的贡献不大,还会增加模型的计算负担,因此造成计算资源的不必要浪费.对于前者变量过多的问题,已有众多关于变量选择的方法研究,然而目前较少工作涉及样本选择.于是本文试对样本选择的问题进行探讨,并提出在样本选择的过程中同时进行变量选择的统计方法.
本文首先研究多维响应变量的广义线性模型的序贯估计方法.在第2章中通过序贯分析的方法解决了样本选择应该选择多少样本的问题,并且在这个样本量下能够保证模型的可靠性(如满足给定精度的模型系数).本章采用拟似然方程估计,放松了一般广义线性模型对响应变量的假定,使得多维响应变量的广义线性模型的应用更加灵活.本章分别在设计阵为固定设计和自适应设计下为模型建立了一套序贯抽样的分析方法,包括二阶段法和纯序贯方法,并给出了对应满足给定精度和可靠性要求的置信区域估计.本章最后证明了该序贯样本选择方法得到的样本量的渐近有效性和该置信区域估计的渐近相合性.
接下来第3章在前面的基础上研究了多维响应变量的广义线性模型在样本选择的过程中同时进行变量选择的方法.本章首先提出了广义线性模型的自适应变量选择的方法,并在一定条件下证明了该变量选择方法的有效性,如Oracle性质及模型参数的相合性.然后考虑在序贯抽样的过程中加入该变量选择方法,使该序贯抽样流程能自适应地识别出有效变量,该流程一方面提高了模型估计的准确性和可解释性,另一方面能自适应地调整满足给定精度和可靠性要求所需要的样本量.本章同样证明了该考虑变量选择的序贯样本选择方法得到的样本量具有渐近有效性,其构造的置信区域具有渐近相合性.在实际样本选择的过程中本章提出了基于修正D-最优准则的样本选择算法,该算法能极大的减少序贯抽样过程中的计算量,并提高样本选择的效率.最后本章通过大量的数值模拟及两个生物医学的实际数据验证了我们方法的有效性.
本文最后考虑另一种特殊的模型—乘积模型(又称加速失效模型),广泛应用于经济金融,以及生存分析领域,尤其是响应变量为正的数据分析.考虑到应用该模型的场景及数据通常符合自适应设计假定,因此本章首先研究了自适应设计下乘积模型在乘积相对误差准则下的相关大样本性质,并提出了基于光滑门限的变量选择方法,同时证明了该变量选择方法的Oracle性质及参数的相合性.然后本章继续研究了该模型同时序贯样本选择和变量选择的方法,同样证明了该方法所得样本量的渐近有效性及置信区域的渐近相合性.本章还提出了一种快速选择样本的方法,该方法在每次选择样本的计算量为常数阶,因此能极大缩减模型分析时间及计算成本.本章最后通过模拟实验证明了该变量选择和样本选择的有效性.
本文首先研究多维响应变量的广义线性模型的序贯估计方法.在第2章中通过序贯分析的方法解决了样本选择应该选择多少样本的问题,并且在这个样本量下能够保证模型的可靠性(如满足给定精度的模型系数).本章采用拟似然方程估计,放松了一般广义线性模型对响应变量的假定,使得多维响应变量的广义线性模型的应用更加灵活.本章分别在设计阵为固定设计和自适应设计下为模型建立了一套序贯抽样的分析方法,包括二阶段法和纯序贯方法,并给出了对应满足给定精度和可靠性要求的置信区域估计.本章最后证明了该序贯样本选择方法得到的样本量的渐近有效性和该置信区域估计的渐近相合性.
接下来第3章在前面的基础上研究了多维响应变量的广义线性模型在样本选择的过程中同时进行变量选择的方法.本章首先提出了广义线性模型的自适应变量选择的方法,并在一定条件下证明了该变量选择方法的有效性,如Oracle性质及模型参数的相合性.然后考虑在序贯抽样的过程中加入该变量选择方法,使该序贯抽样流程能自适应地识别出有效变量,该流程一方面提高了模型估计的准确性和可解释性,另一方面能自适应地调整满足给定精度和可靠性要求所需要的样本量.本章同样证明了该考虑变量选择的序贯样本选择方法得到的样本量具有渐近有效性,其构造的置信区域具有渐近相合性.在实际样本选择的过程中本章提出了基于修正D-最优准则的样本选择算法,该算法能极大的减少序贯抽样过程中的计算量,并提高样本选择的效率.最后本章通过大量的数值模拟及两个生物医学的实际数据验证了我们方法的有效性.
本文最后考虑另一种特殊的模型—乘积模型(又称加速失效模型),广泛应用于经济金融,以及生存分析领域,尤其是响应变量为正的数据分析.考虑到应用该模型的场景及数据通常符合自适应设计假定,因此本章首先研究了自适应设计下乘积模型在乘积相对误差准则下的相关大样本性质,并提出了基于光滑门限的变量选择方法,同时证明了该变量选择方法的Oracle性质及参数的相合性.然后本章继续研究了该模型同时序贯样本选择和变量选择的方法,同样证明了该方法所得样本量的渐近有效性及置信区域的渐近相合性.本章还提出了一种快速选择样本的方法,该方法在每次选择样本的计算量为常数阶,因此能极大缩减模型分析时间及计算成本.本章最后通过模拟实验证明了该变量选择和样本选择的有效性.