论文部分内容阅读
在经济、金融、生物医学等领域,统计模型中主要关心的变量往往由于抽样误差、试验误差等原因使得测量结果带有误差.如果忽略测量误差,利用传统的最小二乘法、极大似然方法分析带有测量误差的数据,得到的结果往往不具有无偏性和相合性.为了对这类数据进行合理的统计推断,人们用代理变量代替真实变量建立测量误差模型进行分析.围绕测量误差模型的研究是现代统计学研究的热点之一,取得了丰富的研究成果.相关文献可参见,Brown(1982),Fuller(1987),Carroll(1995),Cheng和Ness(1992),He和Liang(2000),崔恒建(2004,2005,2006,2007)等.本文主要研究协变量调整回归模型和线性测量误差的统计推断.主要内容分为三个部分.第一部分,研究协变量调整线性回归模型,获得了模型参数的稳健估计量.参数估计分两阶段完成:第一阶段先将协变量调整线性回归模型转换为变系数线性回归模型,基于相对稳健的L1估计方法估计模型中的系数函数;第二阶段利用系数函数估计量在协变量各个观测点函数值的加权平均值估计未知参数,并证明了估计量的相合性和渐近正态性.另外,我们利用经验似然方法分析模型,建立经验似然比检验统计量,并证明了检验统计量渐近服从标准卡方分布.提出基于Bootstrap的检验方法讨论协变量调整线性回归模型的适用性,并通过实际数据加以验证.第二部分,研究协变量调整部分线性回归模型.利用响应变量和预测变量关于协变量做回归,采用核平滑方法估计扰动函数,获得不可观测变量的估计值,利用经验似然方法构造参数向量的经验似然比统计量,并证明统计量渐近服从标准卡方分布,构造参数的置信区间.第三部分,利用工具变量方法研究线性测量误差的稳健统计推断.将文献中预测变量与工具变量之间的线性关系推广为部分线性关系,利用复合分位数回归方法估计模型参数,证明了参数估计量的渐近正态性,由于估计量的渐近方差结构复杂,又提出一种校正的经验似然推断方法,证明了校正后的经验似然比函数渐近服从标准卡方分布,推广了已有结果.下面我们具体介绍本文的主要结果.1.协变量调整线性回归模型的稳健统计推断.设{(Yi,Xi,Ui):i=1,…,n}是来自如下协变量调整线性回归模型的独立同分布随机样本,其中γ=(γ1,…,γp)T是待估的回归参数,Ui为协变量,Xi=(Xi1,…,Xip)T,Ψ(·)φr(·)为干扰函数.受协变量Ui的干扰,响应变量Yi与预测变量Xi均不能被直接观测,模型假设Ui⊥(Yi,XiT),并且为了保证模型可识别,要求E(ΨU))=E(φr(U))=1,这样从平均意义上扰动相互抵消,使得E(Yi)=E(Yi),E(Xir)=E(Xir).为估计模型参数γ,通过简单计算将(1)式转换为如下变系数线性模型:#12其中(?)先考虑系数函数β(·)的估计,然后利用协变量在β(·)各个观测点函数值的加权平均值给出γ的估计.我们采用Tang和Wang(2005)提出的相对稳健的L1估计方法来估计βr(U).由于(2)式是异方差的,本文方法与Tang和Wang(2005)并不完全相同.在给定u的某个小邻域内,βr(Ui)可以被如下线性函数进行局部逼近:#12我们构造如下目标函数:#12通过最小化(3)式,可得(aT:bT)T的局部线性L1估计量(aT,bT)T,这里a=(a1,…,ap)T,b=(b1,…,bp)T.这样可以计算出估计量β(·).注意到模型的如下性质:E(Xr)=E(Xr),E(βr(U)Xr)=γrE(Xr),我们利用βr(Ui)的加权平均值构造γr的估计量,具体形式如下:(?)其中(?)γr的相合性和渐近正态性由下面的定理1和定理2给出.定理1假设模型(1)满足条件C2.6.1-C2.6.6,当n→∞时,有h→0且nh →∞,则下面的结论成立#12其中cn=Op(h2+log1/2(1/h(nh)).定理2假设模型(1)满足条件C2.6.1-C2.6.6,并且当n → ∞时,有nh2/log(1/h)→∞,nh4 → 0,则下面的结论成立#12其中#12#12因为要得到γr的渐近正态性,适当的欠光滑是必要的,所以定理2中的窗宽并不满足估计变系数函数的最佳窗宽条件h~n-1/5,这在分析半参数模型时很常见,具体可参见 Carroll 和 Fan 等(1997).下面利用经验似然方法分析模型.当γr是真实参数时,根据模型性质,有#12因此,可通过判断(?)是否为0来检验γr是否为真实参数.基于Owen(1991),记Vi(γr)=(βr(Ui)-γr)Xir,构造γr的经验似然比函数:#12然而,(5)式中包含未知函数βr(Ui),不可直接使用Ln(γr)来构造γr的置信区域,常用的办法是用βr(·)代替βr(·),进而我们可以给出Vi(γr)的估计量:(?)利用Vi(γr)重新定义经验似然比函数为:#12下面的定理说明经验似然比函数Ln(γr)渐近服从自由度为1的标准卡方分布.定理3如果模型(1)满足条件C2.6.1-C2.6.6,γr是真实参数,则#12其中χ12是自由度为1的标准卡方分布.γr的渐近置信水平为(1-α)的置信区间为#12其中cα满足P(x12≤ cα)=1-α:0<α<1.2.协变量调整部分线性回归模型的统计推断.设{(Yi,Xi,Ti,Ui),i=1,…,n}为独立同分布的随机样本,来自于如下协变量调整部分线性模型:其中g(·)是未知连接函数,Xiτ=(Xi1,…,Xip)τ,(?)与第一部分的讨论类似,令乘积干扰项相互抵消,即E(Ψ(Ui)=E(Ui))=1,有#12根据(7)式的特点,利用Cui和Guo等(2009)提出的直接估计法构造Ψ(·)和φr(·)的估计量,如下:#12其中(?)是核函数,h是窗宽.因此,Yi,Xir的估计量可由下式表示:(?)模型(6)中第一个等式可以表示为Yi-E(Yi|Ti)=(Xi-E(Xi|Tj))τβ+εi.(9)记g1(t)=E(X1T1=t),g2(t)=E(Y1|T1=t).如果g1(t),g2(t)是已知的,则可以将(9)式看做一个线性模型,应用经验似然方法进行分析.下面令Zi=(Xi-E(Xi|Ti))(Yi-E(Yi|Ti)-(Xi-E(Xi|Ti)τβ).(10)容易验证当β为真值时,E(Zi)=0.基于Owen(1990)的想法,可以构造如下经验似然比统计量#12由于g1(t),g2(t)是未知的,利用权函数方法构造估计量,有#12其中Wnj(t)是非负权函数,Wnj(t)可用下式表示#12其中K*(·)是非负核函数,h*是窗宽.记(?)式中的Zi由下式替换:#12那么,关于β的经验似然比函数(11)式被重新定义为#12如果0在点(Z1,…,Zn)构成的凸集内部,则Ln(β)存在唯一解.下面的定理给出了Ln(β)的近似表达式.定理4假设模型(6)满足第3.4节的条件,下面的结论成立.(?)定理5如果第3.4节的条件成立,β0是β的真值,那么Ln(β0)渐近服从χp2分布,即P(Ln(β0)≤cα)=1-α+0(1),其中P(χp2≤cα)=1-α.3.基于工具变量方法,线性测量误差的稳健统计推断.线性测量误差的一般形式为其中自变量真实值为X ∈ Rp,但它是不可直接观测的,W为其观测值.传统的最小二乘法能够成立的一个重要原因是自变量和随机误差项不相关,由于自变量存在测量误差,最小二乘估计不会收敛到真实的参数值,导致估计偏差,如何修正这种偏差是研究测量误差的主要工作,工具变量方法就是其中一种重要的解决办法,该方法能够清楚、准确的反映各个变量之间的关系.这方面的相关文献可参见Schennach(2007),Abarin和Wang(2012),Xu和Ma等(2015)等.工具变量法的基本思想是借助工具变量将自变量中与随机误差项相关的部分分离开,具体做法是考虑存在与自变量X有关,而与随机误差ε,u无关的工具变量Z,满足如下关系:X=HZ+v,(14)其中H是未知参数矩阵.在已有的文献基础上,我们将(14)式推广,考虑X与Z满足更为灵活的部分线性关系:x=HZ+g(t)+v(15)设{(Yi,Wi,Zi,ti),i=1,…,n}是来自如下模型的独立同分布样本:#12其中vi=β0Tvi+εi,ωi=ui+vi.对(16)式的第二项,根据王启华和郑忠国(1997)的定理1和定理2可得到H,g(·)的估计量H,g(·).vi的Tk分位数Ck和β0的复合分位数回归估计量可通过最小化如下损失函数得到:(?)其中ρτk(r)=r(τk-I(r<0)),K表示分位点的个数,0<τ1<τ2<…<τK<1.估计量的渐近性质通过下面的定理给出.定理6如果模型(16)满足第4.5节的条件,并且当n → ∞时,下面的结论成立.#12其中φ1(k,k’)=min(τk,τk’)(1-max(τk,τk’)),φ2(k,k’)=-E[fv(ck’)β0Tω1(I(v1≤ck)-τk)],φ3(k,k’)=-E[fv(ck)β0Tω1(I(v1≤ck’)-τk’)],φ4(k,k’)=E[fv(ck)fv(ck’)(β0ω1)2].#12#12由于渐近正态分布的方差非常复杂,考虑利用经验似然方法分析模型.根据E{τk-I(Yi-β0T(HZi+g(ti))≤ck)}=0.以Zi为辅助变量定义向量#12容易验证E[ηi(β0)]=0,我们可通过判断ηi(β0)是否为0来检验β0是否为真实参数.基于ηi(β0),构造β0的经验似然比函数如下:#12由于ηi(β0)中包含的H,g(·),ck都是未知的,不能直接应用Ln(β0)来构造β0的置信区域.下面利用H,g(·),Ck分别代替H,g(·),ck,得到ηi(β0)的估计量为(?)这时,经验似然比函数被重新定义为#12由于H,g(·)的收敛速度影响了Ln(β0)的收敛效果,使得Ln(β0)不再渐近服从标准卡方分布,为解决这个问题,我们提出一种校正的经验似然函数.令#12其中Kh(·)=h-1K(·/h),K(·)是核函数,h是窗宽,则E(Zi|ti)的估计量为#12定义新的辅助随机向量为#12那么,关于β0的校正经验似然比函数为#12如果0点在(η1(β0),…,ηn(β0)所构成的凸集内部,Ln(β0)渐近服从自由度为p的标准卡方分布.定理7如果模型(16)满足第4.5节的条件,β0是真实参数,则#12其中χp2是自由度为p的卡方分布.对任意给定的0<α<1,β0的渐近置信水平为(1-α)的置信区域为CRα={β0:Ln(β0)≤cα},其中cα满足P(χp2≤cα)=1-α.