变量和样本同时选择的序贯方法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhuxuan88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技对生活和工业的改变,数据的来源越来越丰富,数据量也在以惊人的速度增长.海量的数据不仅使我们可以拥有比以往更多的数据进行建模分析,模型的精度也因此可以得到大幅提升.然而,如此巨量数据的统计分析仍然具有挑战;一方面,收集的变量越来越多,尽管这些冗余的变量不会过分影响模型的预测能力,但由于相当大一部分变量与模型无关,因此会降低模型本身的解释能力;另一方面,虽然样本量在以指数级的速度增长,但是冗余数据也在相应地增加,这些数据不仅对模型估计的贡献不大,还会增加模型的计算负担,因此造成计算资源的不必要浪费.对于前者变量过多的问题,已有众多关于变量选择的方法研究,然而目前较少工作涉及样本选择.于是本文试对样本选择的问题进行探讨,并提出在样本选择的过程中同时进行变量选择的统计方法.
  本文首先研究多维响应变量的广义线性模型的序贯估计方法.在第2章中通过序贯分析的方法解决了样本选择应该选择多少样本的问题,并且在这个样本量下能够保证模型的可靠性(如满足给定精度的模型系数).本章采用拟似然方程估计,放松了一般广义线性模型对响应变量的假定,使得多维响应变量的广义线性模型的应用更加灵活.本章分别在设计阵为固定设计和自适应设计下为模型建立了一套序贯抽样的分析方法,包括二阶段法和纯序贯方法,并给出了对应满足给定精度和可靠性要求的置信区域估计.本章最后证明了该序贯样本选择方法得到的样本量的渐近有效性和该置信区域估计的渐近相合性.
  接下来第3章在前面的基础上研究了多维响应变量的广义线性模型在样本选择的过程中同时进行变量选择的方法.本章首先提出了广义线性模型的自适应变量选择的方法,并在一定条件下证明了该变量选择方法的有效性,如Oracle性质及模型参数的相合性.然后考虑在序贯抽样的过程中加入该变量选择方法,使该序贯抽样流程能自适应地识别出有效变量,该流程一方面提高了模型估计的准确性和可解释性,另一方面能自适应地调整满足给定精度和可靠性要求所需要的样本量.本章同样证明了该考虑变量选择的序贯样本选择方法得到的样本量具有渐近有效性,其构造的置信区域具有渐近相合性.在实际样本选择的过程中本章提出了基于修正D-最优准则的样本选择算法,该算法能极大的减少序贯抽样过程中的计算量,并提高样本选择的效率.最后本章通过大量的数值模拟及两个生物医学的实际数据验证了我们方法的有效性.
  本文最后考虑另一种特殊的模型—乘积模型(又称加速失效模型),广泛应用于经济金融,以及生存分析领域,尤其是响应变量为正的数据分析.考虑到应用该模型的场景及数据通常符合自适应设计假定,因此本章首先研究了自适应设计下乘积模型在乘积相对误差准则下的相关大样本性质,并提出了基于光滑门限的变量选择方法,同时证明了该变量选择方法的Oracle性质及参数的相合性.然后本章继续研究了该模型同时序贯样本选择和变量选择的方法,同样证明了该方法所得样本量的渐近有效性及置信区域的渐近相合性.本章还提出了一种快速选择样本的方法,该方法在每次选择样本的计算量为常数阶,因此能极大缩减模型分析时间及计算成本.本章最后通过模拟实验证明了该变量选择和样本选择的有效性.
其他文献
对美育与宗教关系的探讨最有名的就是蔡元培提出的“以美育代宗教”的命题。在文化繁荣发展的今天,我们对美育与宗教关系的研究不能仅仅局限于历史,而是要站在现代文化发展的角度对两者进行全面的研究。美育与宗教是什么?两者的关系如何?两者在现代文化发展过程中具有怎样的价值与意义?这些都是研究美育与宗教关系时不能避免的问题。  美育与宗教都是人类精神文化发展的产物,是人在精神上寻求的一种信仰。精神信仰是人类心灵
学位
作为一种较新的融资模式,控股股东股权质押业务在中国资本市场越来越普遍。据统计,截至2018年末有将近50%的上市公司控股股东进行了股权质押融资。而前两年受内外部多种因素影响,资本市场下行,股票质押风险又一次站在风口浪尖,引发市场各方关注。  股权质押不仅是控股股东自身融资行为,因股权质押物的特殊性,也会对其控制的上市公司行为产生重要影响。如控股股东股权质押会加大代理冲突,对上市公司价值、盈余管理、
学位
2020年注定是不平凡的一年,随着我国资本市场的不断发展和完善,国家决定在今年4月取消外资券商准入限制,引入市场竞争机制促进行业发展,同时加快打造航母级券商战略,证券业进入一个崭新的发展阶段。许多大型券商开始对外进行扩张,并购重组案例增多,但财务成本过高、缺乏管控手段等问题随之出现,中小型券商在市场份额被蚕食情况下如何参与竞争,为应对这些现实问题,券商开始探索财务管理创新。当前正好处在第四次工业革
学位
江苏省是我国的国民经济领军省份,当地中小企业较多,全省规模以上中小企业占全省规模以上工业的97.5%,是当地经济发展的主力军。A银行是江苏省境内最大的商业银行,承担着以金融服务江苏的使命。因此,A银行一直以来都以为小微企业提供金融服务作为银行发展的重点。近年来,更是在政府政策引导下开展了一系列的小微企业金融服务创新活动,为江苏省境内创新能力强、发展前景好、资质信用好、经营状况好的小微企业提供了优质
学位
PPP(Public-Private Partnership)又称PPP模式,即政府和社会资本合作,鼓励私营企业、民营资本与政府合作,参与公共基础设施的建设。是最适用于基础设施、公用事业、城镇化和自然资源开发等大中型公共项目的重要融资、交付和管理模式,已经在全世界得到广泛应用,并在我国得到重视和快速发展。而PPP模式在生态工程领域的引入,缓解了政府在环境治理领域财政支出的负担和压力,通过提高社会资
习近平书记多次强调,“金融要为实体经济服务,满足经济社会发展和人民群众需要正确把握金融本质,深化金融供给侧结构性改革,增强金融服务实体经济能力”。金融空间的形态是金融系统的地理空间维度的考察,因此,探讨金融的地理特征在当下城镇化和产业转型升级的大背景下,富有实际意义。  本文研究金融集聚是针对我国私募基金的地理集聚来研究的。把私募基金的地理集聚看成是一种金融集聚的特定模式,这种模式的创新给区域及企
学位
银行资产质量直接影响到经营业绩,影响到银行的生存和发展。不论是股东、管理者还是其他利益相关者,都非常重视资产质量,并把资产质量作为实现战略目标的重要要素之一,同时也是衡量银行可持续发展潜能的一个重要指标。随着社会经济市场化程度的不断加深,银行业逐渐走向了市场运作模式,面临的环境更加开放、更加多变,市场竞争日益激烈,宏观经济形势日益严峻。本文首先对非金融企业资产质量相关理论进行分析,总结了其研究成果
中国期货市场作为发现价格和规避风险的重要金融工具,对我国的社会主义市场经济体制建设具有重要意义。近年来,中国期货市场处于快速发展时期,成交总量连年大幅增长。在近两年,中国期货市场更是逐渐加快了国际化的步伐,逐步在国际市场上发挥影响力。  与此同时,随着信息技术和数据科学的高速发展,投资者越来越重视更精细化的数据。而不同于一些国际市场和我国股票市场所提供的的逐笔订单数据,我国期货市场所提供的最精细的
学位
纵向数据是对研究总体中的个体依时间顺序重复观测而得到的数据。显然,同一个体多次重复观测之间存在相依关系。必须考虑这种相依关系,才能进行有效的统计推断。本文中,对具有二元、有序和计数等各种类型的响应变量的纵向数据,建立了一个均值-协方差Copula联合建模框架。与现有方法不同的是,从隐变量的角度研究高斯Copula方法,直接关注隐变量的协方差结构,并对其施加一种新的约束条件,使得Copula模型具有
学位
流行病伴随着人类社会的发展也在不断演进,每次流行病的大爆发均给人类社会带来了难以计数的伤亡,也对社会经济造成了巨大的影响。近期COVID-19疫情在全球范围的爆发导致多国股市剧烈震荡。美股更是在一周内触发了四次熔断机制,创造了有史以来的最大跌幅。各国央行纷纷出台的经济刺激政策并未取得显著成效。大资金外逃、空头操作等进一步加剧了国际市场的流动性风险。本文从流动性风险的角度,基于VAR模型、MV-CA
学位