论文部分内容阅读
协方差矩阵作为多元统计分析中一个不可或缺的统计参数,在经典多元统计分析中扮演着重要角色,如何得到一个准确的协方差矩阵估计是多元统计分析中的一个基本问题。另一方面协方差矩阵应用也十分广泛,在各个领域的统计分析工作中均会涉及,尤其是在金融资产投资领域,协方差矩阵刻画多变量相关性及波动程度的功能,正是衡量多维金融资产风险的有力工具,以均值-方差投资组合模型为代表的一系列数量化投资理论的出现,更是提高了协方差矩阵在金融投资领域的角色地位。大数据时代悄然而至,现阶段统计分析工作面临数据的变量维度、样本规模较之前更高、更大,协方差矩阵作为多元统计分析中的重要统计量,其估计问题在高维背景下遇到了严峻的挑战。当变量维度p或变量维度与样本规模的比值p/n显著增加时,基于样本数据的传统协方差矩阵构建方法将变得不可信赖,待估参数数目上升、估计误差累积、矩阵奇异无法求逆等一系列问题将会对多变量统计分析工作带来新的困扰。在高维协方差矩阵应用领域,相关问题也随之而来,例如对于均值-方差投资组合模型的应用,由于作为输入变量之一的高维协方差矩阵可能存在奇异性,这将会导致高维投资组合模型构建无法顺利进行,此外协方差矩阵元素估计误差累积,高维投资组合的良好绩效也很难保证。针对高维统计背景下协方差矩阵的估计问题,众多学者开展了相关研究。基于不同的研究目的,高维协方差矩阵估计研究大致可归纳为两类研究脉络,其一是对于高维协方差矩阵的静态估计,其二是对于高维协方差矩阵的动态预测。现有的高维协方差矩阵研究方法相较于传统样本协方差矩阵估计已有了长足进步,其在保证估计量具备正定特性的同时,也通过稀疏化方法降低了待估参数数目,提高了估计精度。然而,数据分布的假设或多或少影响着估计方法的实际应用,使用到的收缩估计也并不完善,一些时间序列方法需要拆分变化矩阵也破坏了矩阵原本的结构。综上所述,本文在静态估计与动态预测两大分析框架下对高维协方差矩阵展开三方面的研究,整体上遵从统计学学术论文的基本研究范式,以改进模型、解决问题为研究目的,首先介绍相关方法,指出其存在的问题与不足之处,之后创新地提出新方案进行弥补或完善,并且试图给出模型的收敛性质或预测误差上界,保证模型在理论上的可用性,通过数值模拟对方法进行对比,初步展示所提方法的优良性,最后进行金融资产均值-方差投资组合实证分析,探究新方法的实际应用效果。本文的具体研究内容安排如下:第1章介绍本文的相关背景与选题意义。协方差矩阵估计本就是多元统计分析中的基本问题,在现阶段大数据时代高维背景下面临很大的挑战,其应用问题也值得进一步探讨,因此本文的选题具备理论意义与应用价值。第2章对高维协方差矩阵估计相关理论研究及其投资组合领域应用进行文献综述。将已有的研究高维协方差矩阵估计问题的文献,按照研究视角归结为静态估计与动态建模两大类,在每一类视角下对文献进行梳理,此外另对其在投资组合领域的应用进行概括总结,最后在章节末尾对已有的研究方法进行评价,指出存在的研究问题,以此为出发点引出本文的研究内容。第3章是全文的理论预备知识。阐述传统样本协方差矩阵的构造方法,通过数值模拟直观展示其在高维数据背景下估计失效这一严重缺陷;简单介绍均值-方差投资组合理论,为后续最小方差投资组合模型的构建进行铺垫。第4章为本文的第一项研究内容,建立了一种新的高维协方差矩阵的稳健估计——中心正则稳健估计。本文在子样本分组的基础上,利用中心正则思想对均值-中位数稳健估计进行了改进,使得可以最终求得一个正定稀疏的高维协方差矩阵稳健估计。第5章为本文的第二项研究内容,提出了一种相对完善的基于收缩估计的高维协方差矩阵动态模型——VAR-EN模型。本文在VAR-LASSO模型的基础上,在估计过程中额外施加L2范数惩罚,形成弹性网算法,以令原始模型的变量选择功能更加完善,得到的稀疏化参数矩阵也更加合理。第6章为本文的第三项研究内容,提出了一种具备降维功能的高维协方差矩阵的动态建模方法——基于Cholesky分解的可预测矩阵值因子模型。高维矩阵值因子分析方法无法直接应用到高维协方差矩阵动态建模过程中,本文创新地利用Cholesky分解与向量自回归方法,解决了原始模型的适用性问题,并且赋予了模型预测功能。第7章为本文最后一章,内容为总结与展望。概括了全文的研究内容与结论,指出了本文研究的不足之处,展望了未来高维协方差矩阵研究领域的发展方向。本文的研究内容符合统计学学术研究的基本范式,三项研究内容为本文的三个创新点,集中于高维协方差矩阵静态估计或动态建模方法的完善,具体创新点为:1、提出了中心正则稳健估计方法,解决了均值-中位数稳健估计无法求得正定稀疏矩阵的问题。原始均值-中位数估计为高维协方差矩阵的稳健估计方法,其思想简单计算简便而备受青睐,然而却无法在模型设定上保证所估矩阵的正定特性,且得到的高维协方差矩阵估计不是稀疏的,本文所提的中心正则稳健估计对其进行了改进,可以求得一个正定稀疏的稳健高维协方差矩阵估计。2、提出了VAR-EN模型,解决了VAR-LASSO方法变量选择不完备、所估系数矩阵稀疏化不合理问题。VAR-LASSO方法以已实现协方差矩阵为建模样本,通过LASSO收缩估计稀疏化参数矩阵,为高维协方差矩阵的动态建模提供了新的研究思路。然而受制于LASSO方法本身的缺陷,模型的变量选择功能并不完备,预测精度也有待提高,本文完善了VAR-LASSO模型,提出了新的VAR-EN模型对其缺点进行了改进。3、提出了基于Cholesky分解的可预测矩阵值因子模型,解决了原始矩阵值因子模型无法用于高维协方差矩阵动态建模的适用性问题。矩阵型时间序列数据的因子分析方法近些年来被提出,其可以通过因子分析有效降低矩阵维度,这种降维的思想是具有启发性的,然而原始模型并未对建模矩阵施加结构设定,因此无法直接应用到本文研究过程中,此外因子分析本身并不具备预测功能,这使得模型应用价值大大折扣。本文所提的基于Cholesky分解的可预测矩阵值因子模型不仅解决了原始模型的适用性问题,而且具备预测功能。综上所述,本文的研究内容以方法论研究为出发点,以实证应用为落脚点,重在指出传统方法的研究缺陷,对其进行弥补与改进,并通过投资组合实证分析展示应用效果。总体来看,本文对于高维协方差矩阵估计的研究依旧遵循降维及稀疏化的思想,其具体研究内容把握了大数据时代统计学研究方法的前沿,选题视角与立意均有新颖之处,三项创新点具备一定的学术价值及研究意义。