论文部分内容阅读
本文借助母函数等工具研究了离散复合Poisson分布(简称DCP分布)的概率理论性质、统计推断与数值计算,对DCP分布和相关回归模型做了较全面的综述,并特别地探讨了计数数据回归的惩罚估计。本文的DCP分布有如下形式的母函数:著名的Felller刻画是:离散复合Poisson分布等价于离散无穷可分分布,这可视为Levy-Khintchine无穷可分分布刻画的特例情况。特别地,当{αi}>i=1∞可取负值且之和是绝对收敛时,称之为伪离散复合Poisson分布,它继承了DCP分布的部分性质。第一章介绍了本文的重要工具(母函数和Fourier变换),完善了Felller关于离散无穷可分刻画的证明;对Lasso等高维变量选择方法进行了简介;介绍了Bayesian Lasso方法,讨论了先验分布无穷可分的情况,并设想以适当的零膨胀分布作为先验分布得到稀疏非零系数的估计。第二章讨论了DCP分布(过程)的刻画,并且在附录里列举了对其概率质量函数的十种不同证明,对文献中DCP分布的百余种特例或子族进行整理。本章用Stein-Chen方法和算子半群方法研究了独立离散随机变量之和与相对应的DCP分布的全变差上界估计,还得到了DCP分布的三角阵逼近。第三章讨论了DCP分布的统计量、参数估计以及FFT算法、离散Kolmogorov-Smirnov检验。第四章研究了基于DCP分布的一些统计应用:1)运用第三章的累积量估计和Fourier变换估计对两个精算中具有零膨胀与过离散特点的理赔数据做了DCP分布拟合;2)我们证明了任意取0值概率大于0.5的离散分布均为伪离散复合Poisson分布,由此利用伪DCP分布的零膨胀性质和加虚拟频数的技巧,得到任意离散分布的拟合方法,并进行了离散K-S检验与卡方检验的对比;3)探讨了基于DCP分布的计数数据广义线性模型,用惩罚估计的方法来挑选重要回归变量。特别地,我们得到了负二项回归系数Elastic net估计值非零(为零)的充分必要条件(类似Karush-Kuhn-Tucker条件)。然后对狩猎蜘蛛计数数据分别实现了基于极大似然、Lasso惩罚、Elastic net惩罚的负二项回归,并进行了比较分析。4)阐述了由DCP分布特例衍生出的离散Frailty模型和治愈率模型(竞争因素的长期生存者分析模型)。5)展望了利用混合Poisson分布逼近离散分布的问题。由于混合系数选择的无穷维性和复杂性,混合分布的系数的估计成为高维问题。