论文部分内容阅读
在如今大数据分析盛行的年代,对于某些特定的指标,由于观测时间和成本的关系,一般只能获得容量很有限的样本。由于大样本推断的偏差难于衡定,因此在大数据时代有限样本推断仍然值得关注。
本文考虑下列广义多元方差分析一多元方差分析(GeneralizedMultivariateAnalysisofVariance-MultivariateAnalysisofVariance,简记GMANOVA-MANOVA)模型:Y=XB1Z1T2+B2Z2T+ε,其中y是qxn的可观测响应矩阵,X是qxp的己知常数矩阵,Z1,Z2分别是n×m,n×s的己知矩阵,B1,B2分别是p×m,q×s的未知回归参数矩阵,ε是q×n的随机误差矩阵,它服从均值为零,协方差阵为σ2In(×)(p|i-j|)q×q的正态分布,这里σ2>0,ρ∈(-1,1)未知。本文称此模型为一阶自回归(First-orderAutoregressive,简称AR(1))型协方差结构下正态GMANOVA-MANOVA模型。为了方便讨论,作参数变换τ=σ2(1-ρ2),本文主要研究了(B1,B2,τ,ρ)极大似然估计(MaximumLikeli-hoodEstimator,简称MLE)的有限样本特征问题。
关于模型参数估计的有限样本特征,本文从三个方面进行了讨论,主要包括MLE的存在性和唯一性问题、简单假设检验和置信区间问题和估计的偏差纠正问题。
在带AR(1)型协方差阵结构的正态GMANOVA-MANOVA模型中参数MLE的存在性和唯一性是本文首先考虑的问题。不失一般性,本文假定q>2,并定义函数f(ρ|Y)(=)1/nqtr{V1/2(ρ)Mvl/2(ρ)x[qV-l/2(ρ)(a)V(ρ)/(a)ρ-l/2(ρ)+2ρ/1-ρIq]·Mv1/2(ρ)XV1/2(ρ)(S2-S)+[q(a)V(ρ/(a)ρ+2ρ/1-ρ2V(ρ)]s),ρ∈(-1,1),其中MV1/2(ρ)x=Iq-V1/2(ρ)X[XTV(ρ)X]-XTVl/2(ρ)、S=YMZYT、S2=YMz2YT、v(ρ)=(1-ρ2)(ρ|i-j|)q×q、Mz=In-Z(ZTZ)-ZT和Mz2=In-Z2(Z2TZ2)-Z2T。本文通过函数f(ρ|y),ρ∈(-1,1)找到了自相关系数ρ的MLE(ρ)以概率1存在的充分必要条件:(q-l)[n-rank(Z2)]>[rank(Z)-rank(Z2)]max{rank[(X,lq)]-1,rank[(X,1q)]一1},其中q维列向量1q=(1,1,…,1)T,(l)q=(1,-1,…,(-1)q-1)T,rank(Z)表示z的秩,max表示取最大值。同时,本文还得出该充分必要条件也是模型参数(B1,B2,τ,ρ)的MLE((B)1,(B)2,(τ),(ρ))以概率1存在的充分必要条件的结论,且估计有如下表达式:(B)1=[XTV((ρ))X]-XTV((ρ))Y(In-PZ2)Z1[ZT1(In-PZ2)Z1]ˉ,(B)2=(Y-X(B)1ZT1)Z2(ZT2Z2)-,(τ)=l/qntr{V((ρ))S+[V(ρ)-V((ρ))X(XTV((ρ))X)ˉXTV(p)](S2 -S)},其中(ρ)可以通过最大化下式得到(L)(ρ|Y)=-qn/2{log[2π(τ)-(ρ)]+l}+n/2log(l-ρ2),ρ∈(-1,1)。关于唯一性,本文在存在性条件下,定义了集合D(q,p),即D(q,p)(=){Xq×p:[Iq-V(p)X(XTV(ρ)X)ˉXT][q(a)2V/(a)ρ2+2ρ/1-ρ2(a)V(ρ)/(a)ρ+2(1+ρ2)/(1-ρ2)V(ρ)-2q(a)V(ρ)/(a)ρX(XTV(p)X)ˉXT(a)v(ρ)/(a)ρ].[Iq-X(XTV(ρ)X)ˉXTV(ρ)]≥0,ρ∈(-1,1)),并讨论了集合D(q,p)非空等重要性质,同时给出了自相关系数ρMLE(ρ)以概率1唯一的一个充分条件:X∈D(q,p)。另外,在模型参数MLE((B)1,(B)2,(τ),(ρ))的唯一性方面,本文在自相关系数估计存在条件下给出了一个模型参数估计唯一的充分条件:rank(X)=p,rank(Z2)=s,rank(MZ2Zl)=m,L(Z1)(∈)L(Z2)且X∈D(q,p)。
在有限样本特征中,模型参数的有限样本检验和置信区间是重点关注的内容之一。本文借助于自相关系数估计的唯一性条件,得到了自相关系数ρMLE(ρ)的精确分布,该分布函数可表达如下:F(ρ)((r),ρ)={O,r≤-1,P(tr{S[q(a)V(r)/(a)r+2r/1-r2V(r)]+(S*2-S*)[Iq-V(r)X(XTV(r)XˉXT]·[q(a)V(r)/(a)r+2r/1-r2V(r)/1-r2V(r)][Iq-X(XTV(r)X)ˉXTV(r)]}≥0,r∈(-1,1)1,r≥1,其中S*2=Y*Mz2Y*T、S*=Y*MzY*和Y*~N(O,In(×)(ρ|i-j|),p∈(-1,1)。分析该分布函数,可以得到的结论是:它是正态随机变量的一个二次型概率形式,且该分布只与模型自相关系数有关,而与其他模型参数无关。根据该分布函数的特点,从P(μ1≤ρ0≤μ2)=1-α出发,本文构建了水平为1-α的自相关系数简单假设(H0∶ρ=ρ0v.S.H1∶ρ≠ρ0,ρ0∈(-1,1),ρ0∈(-1,1)己知)的一个检验,其拒绝域W构建如下:(W)={Y*|f(μ1|Y*)f(μ2|Y*)<0),其中α<0.5,临界点μ1和μ2分别满足F(ρ)((μ1;ρ=ρ0)=α/2和F(ρ)(μ2;ρ=ρ0)=1-α/2,Y*为检验样本。同时还构建了自相关系数简单假设的似然比检验和模型参数简单假设(H0∶B1=B10,B2=B20,τ=τ0,ρ=ρ0v.s.H1∶其他)的似然比检验,并将自相关系数简单假设的似然比检验与前面精确分布所构建的检验进行模拟对比,得出了后者为无偏检验且与似然比检验在功效函数上无太大差异的结论。
在自相关系数估计的存在性和一致性((ρ)p→ρ0)条件下,本文分别考虑了自相关系数ρMLE(ρ)分别关于样本量q和n的近似分布,得到了(ρ)的近似正态性。假定θ0=(B10,B20,τ0,ρ0)为模型参数θ=(B1,B2,τ,ρ)的真实值(下同),Y为样本,则其结果如下:1)给定,n关于q有√q((ρ)-ρ0/μ0*σf*d→N(0,1),其中q与n,p,m,s无关,关于g总有Xq×p的元素一致有界,limq→∞(XTX)/q存在且可逆,且有μ0*=-[1/qEθ0(a)f(ρ0|Y)/(a)ρ]-1,σf*2=Dθ0[f(ρ0|Y)]/q;2)给定q关于n有√n((ρ)-ρ0)/μ1*σf1*d→N(0,1),其中n与q,p,m,s无关,关于,N总有xq×p的元素一致有界,同时limn→∞(XTX)存在且可逆,且有μ1*=-[Eθ0(a)f(ρ0|Y)/(a)ρ]-1,σf1*2=nDθ0[f(ρ0|Y)]。
在近似正态性条件下,本文给出了有限样本条件下自相关系数水平为1-a的近似置信区间:ρ)-μα/2σ*/|μ*|≤ρ0≤(ρ)+μα/2σ*/|μ*|其中Po∈(-1,1)为模型参数ρ的真实值,Y为样本,μα/2表示标准正态分布的α/2上分位点(α<0.5)且有μ*=Eθ0(ρ0|Y)/(a)ρ|ρ0=(ρ),σ*2=Dθ0[f(ρ0|Y)]|ρ0=(ρ)。最后通过模拟,本文给出了自相关系数精确置信区间的数值计算方法,同时得到了(ρ)的一系列其他的有限样本特征,而真实数据分析表明,所得有限样本特征结论具有实际应用价值。
在有限样本特征分析中,估计的偏差纠正也是本文关心的内容。本文采用Harville(1977)、Durbanetal(2000)、Baoetal(2007)、Jiang(2007)和Yuetal(2015)等提出的纠偏思路对带正态AR(1)型协方差阵结构GMANOVA-MANOVA模型参数的MLE进行了偏差纠正,并对纠偏极大似然估计(AdjustedMaximumLikelihoodEstimator,简称ADMLE)具体的有限样本特性进行了讨论。本文在一定条件下给出了模型参数纠偏估计的计算方法,并给出了自相关系数纠偏估计存在的一个充分条件,具体结论如下:假定模型自相关系数估计唯一且rankL(ln-Pz2)Z1]=m(≠O),rank(X)=p,rank(Z2)=s及q≥2,则自相关系数ρ对应的纠偏估计(ρ)A以概率1存在。同时在一定条件下证明了自相关系数ADMLE的一致性,并给出了偏差的一种迭代计算方法。在纠偏估计pA和MLE(ρ)的分布函数对比中,本文得出了它们可以有相同近似分布的结论。模拟表明,本文所采用的有限样本纠偏方法偏差纠正效果明显,且纠偏后与真实参数的偏差随着样本容量的增加而变小。
带正态白噪声的AR(1)模型作为正态条件下带AR(1)型协方差阵结构的GMANOVA-MANOVA模型的经典特例,其自相关系数的MLE的有限样本特征也是关注的内容之一。本文首先对带正态白噪声的AR(1)模型分均值参数己知和未知两种情况分别给出了自相关系数MLE存在性和唯一性的充分必要条件,同时给出了自相关系数MLE对应的精确分布函数;其次,本文对自相关系数的简单假设进行了检验,并对均值参数己知情况下自相关系数给出了最简模型的置信区间;最后,本文针对自相关系数纠偏估计的偏差纠正效果进行了模拟,模拟证明偏差纠正效果明显,并且纠偏估计往往会高估参数。
本文考虑下列广义多元方差分析一多元方差分析(GeneralizedMultivariateAnalysisofVariance-MultivariateAnalysisofVariance,简记GMANOVA-MANOVA)模型:Y=XB1Z1T2+B2Z2T+ε,其中y是qxn的可观测响应矩阵,X是qxp的己知常数矩阵,Z1,Z2分别是n×m,n×s的己知矩阵,B1,B2分别是p×m,q×s的未知回归参数矩阵,ε是q×n的随机误差矩阵,它服从均值为零,协方差阵为σ2In(×)(p|i-j|)q×q的正态分布,这里σ2>0,ρ∈(-1,1)未知。本文称此模型为一阶自回归(First-orderAutoregressive,简称AR(1))型协方差结构下正态GMANOVA-MANOVA模型。为了方便讨论,作参数变换τ=σ2(1-ρ2),本文主要研究了(B1,B2,τ,ρ)极大似然估计(MaximumLikeli-hoodEstimator,简称MLE)的有限样本特征问题。
关于模型参数估计的有限样本特征,本文从三个方面进行了讨论,主要包括MLE的存在性和唯一性问题、简单假设检验和置信区间问题和估计的偏差纠正问题。
在带AR(1)型协方差阵结构的正态GMANOVA-MANOVA模型中参数MLE的存在性和唯一性是本文首先考虑的问题。不失一般性,本文假定q>2,并定义函数f(ρ|Y)(=)1/nqtr{V1/2(ρ)Mvl/2(ρ)x[qV-l/2(ρ)(a)V(ρ)/(a)ρ-l/2(ρ)+2ρ/1-ρIq]·Mv1/2(ρ)XV1/2(ρ)(S2-S)+[q(a)V(ρ/(a)ρ+2ρ/1-ρ2V(ρ)]s),ρ∈(-1,1),其中MV1/2(ρ)x=Iq-V1/2(ρ)X[XTV(ρ)X]-XTVl/2(ρ)、S=YMZYT、S2=YMz2YT、v(ρ)=(1-ρ2)(ρ|i-j|)q×q、Mz=In-Z(ZTZ)-ZT和Mz2=In-Z2(Z2TZ2)-Z2T。本文通过函数f(ρ|y),ρ∈(-1,1)找到了自相关系数ρ的MLE(ρ)以概率1存在的充分必要条件:(q-l)[n-rank(Z2)]>[rank(Z)-rank(Z2)]max{rank[(X,lq)]-1,rank[(X,1q)]一1},其中q维列向量1q=(1,1,…,1)T,(l)q=(1,-1,…,(-1)q-1)T,rank(Z)表示z的秩,max表示取最大值。同时,本文还得出该充分必要条件也是模型参数(B1,B2,τ,ρ)的MLE((B)1,(B)2,(τ),(ρ))以概率1存在的充分必要条件的结论,且估计有如下表达式:(B)1=[XTV((ρ))X]-XTV((ρ))Y(In-PZ2)Z1[ZT1(In-PZ2)Z1]ˉ,(B)2=(Y-X(B)1ZT1)Z2(ZT2Z2)-,(τ)=l/qntr{V((ρ))S+[V(ρ)-V((ρ))X(XTV((ρ))X)ˉXTV(p)](S2 -S)},其中(ρ)可以通过最大化下式得到(L)(ρ|Y)=-qn/2{log[2π(τ)-(ρ)]+l}+n/2log(l-ρ2),ρ∈(-1,1)。关于唯一性,本文在存在性条件下,定义了集合D(q,p),即D(q,p)(=){Xq×p:[Iq-V(p)X(XTV(ρ)X)ˉXT][q(a)2V/(a)ρ2+2ρ/1-ρ2(a)V(ρ)/(a)ρ+2(1+ρ2)/(1-ρ2)V(ρ)-2q(a)V(ρ)/(a)ρX(XTV(p)X)ˉXT(a)v(ρ)/(a)ρ].[Iq-X(XTV(ρ)X)ˉXTV(ρ)]≥0,ρ∈(-1,1)),并讨论了集合D(q,p)非空等重要性质,同时给出了自相关系数ρMLE(ρ)以概率1唯一的一个充分条件:X∈D(q,p)。另外,在模型参数MLE((B)1,(B)2,(τ),(ρ))的唯一性方面,本文在自相关系数估计存在条件下给出了一个模型参数估计唯一的充分条件:rank(X)=p,rank(Z2)=s,rank(MZ2Zl)=m,L(Z1)(∈)L(Z2)且X∈D(q,p)。
在有限样本特征中,模型参数的有限样本检验和置信区间是重点关注的内容之一。本文借助于自相关系数估计的唯一性条件,得到了自相关系数ρMLE(ρ)的精确分布,该分布函数可表达如下:F(ρ)((r),ρ)={O,r≤-1,P(tr{S[q(a)V(r)/(a)r+2r/1-r2V(r)]+(S*2-S*)[Iq-V(r)X(XTV(r)XˉXT]·[q(a)V(r)/(a)r+2r/1-r2V(r)/1-r2V(r)][Iq-X(XTV(r)X)ˉXTV(r)]}≥0,r∈(-1,1)1,r≥1,其中S*2=Y*Mz2Y*T、S*=Y*MzY*和Y*~N(O,In(×)(ρ|i-j|),p∈(-1,1)。分析该分布函数,可以得到的结论是:它是正态随机变量的一个二次型概率形式,且该分布只与模型自相关系数有关,而与其他模型参数无关。根据该分布函数的特点,从P(μ1≤ρ0≤μ2)=1-α出发,本文构建了水平为1-α的自相关系数简单假设(H0∶ρ=ρ0v.S.H1∶ρ≠ρ0,ρ0∈(-1,1),ρ0∈(-1,1)己知)的一个检验,其拒绝域W构建如下:(W)={Y*|f(μ1|Y*)f(μ2|Y*)<0),其中α<0.5,临界点μ1和μ2分别满足F(ρ)((μ1;ρ=ρ0)=α/2和F(ρ)(μ2;ρ=ρ0)=1-α/2,Y*为检验样本。同时还构建了自相关系数简单假设的似然比检验和模型参数简单假设(H0∶B1=B10,B2=B20,τ=τ0,ρ=ρ0v.s.H1∶其他)的似然比检验,并将自相关系数简单假设的似然比检验与前面精确分布所构建的检验进行模拟对比,得出了后者为无偏检验且与似然比检验在功效函数上无太大差异的结论。
在自相关系数估计的存在性和一致性((ρ)p→ρ0)条件下,本文分别考虑了自相关系数ρMLE(ρ)分别关于样本量q和n的近似分布,得到了(ρ)的近似正态性。假定θ0=(B10,B20,τ0,ρ0)为模型参数θ=(B1,B2,τ,ρ)的真实值(下同),Y为样本,则其结果如下:1)给定,n关于q有√q((ρ)-ρ0/μ0*σf*d→N(0,1),其中q与n,p,m,s无关,关于g总有Xq×p的元素一致有界,limq→∞(XTX)/q存在且可逆,且有μ0*=-[1/qEθ0(a)f(ρ0|Y)/(a)ρ]-1,σf*2=Dθ0[f(ρ0|Y)]/q;2)给定q关于n有√n((ρ)-ρ0)/μ1*σf1*d→N(0,1),其中n与q,p,m,s无关,关于,N总有xq×p的元素一致有界,同时limn→∞(XTX)存在且可逆,且有μ1*=-[Eθ0(a)f(ρ0|Y)/(a)ρ]-1,σf1*2=nDθ0[f(ρ0|Y)]。
在近似正态性条件下,本文给出了有限样本条件下自相关系数水平为1-a的近似置信区间:ρ)-μα/2σ*/|μ*|≤ρ0≤(ρ)+μα/2σ*/|μ*|其中Po∈(-1,1)为模型参数ρ的真实值,Y为样本,μα/2表示标准正态分布的α/2上分位点(α<0.5)且有μ*=Eθ0(ρ0|Y)/(a)ρ|ρ0=(ρ),σ*2=Dθ0[f(ρ0|Y)]|ρ0=(ρ)。最后通过模拟,本文给出了自相关系数精确置信区间的数值计算方法,同时得到了(ρ)的一系列其他的有限样本特征,而真实数据分析表明,所得有限样本特征结论具有实际应用价值。
在有限样本特征分析中,估计的偏差纠正也是本文关心的内容。本文采用Harville(1977)、Durbanetal(2000)、Baoetal(2007)、Jiang(2007)和Yuetal(2015)等提出的纠偏思路对带正态AR(1)型协方差阵结构GMANOVA-MANOVA模型参数的MLE进行了偏差纠正,并对纠偏极大似然估计(AdjustedMaximumLikelihoodEstimator,简称ADMLE)具体的有限样本特性进行了讨论。本文在一定条件下给出了模型参数纠偏估计的计算方法,并给出了自相关系数纠偏估计存在的一个充分条件,具体结论如下:假定模型自相关系数估计唯一且rankL(ln-Pz2)Z1]=m(≠O),rank(X)=p,rank(Z2)=s及q≥2,则自相关系数ρ对应的纠偏估计(ρ)A以概率1存在。同时在一定条件下证明了自相关系数ADMLE的一致性,并给出了偏差的一种迭代计算方法。在纠偏估计pA和MLE(ρ)的分布函数对比中,本文得出了它们可以有相同近似分布的结论。模拟表明,本文所采用的有限样本纠偏方法偏差纠正效果明显,且纠偏后与真实参数的偏差随着样本容量的增加而变小。
带正态白噪声的AR(1)模型作为正态条件下带AR(1)型协方差阵结构的GMANOVA-MANOVA模型的经典特例,其自相关系数的MLE的有限样本特征也是关注的内容之一。本文首先对带正态白噪声的AR(1)模型分均值参数己知和未知两种情况分别给出了自相关系数MLE存在性和唯一性的充分必要条件,同时给出了自相关系数MLE对应的精确分布函数;其次,本文对自相关系数的简单假设进行了检验,并对均值参数己知情况下自相关系数给出了最简模型的置信区间;最后,本文针对自相关系数纠偏估计的偏差纠正效果进行了模拟,模拟证明偏差纠正效果明显,并且纠偏估计往往会高估参数。