统计数据异常诊断方法及应用——基于回归模型与残差分布视角

论文部分内容阅读

运用统计数据分析与预测国家经济特征及走势已是众多专家学者乃至业余人士的惯用方法，然而随着信息化的深入发展，人们对数据质量提出了越来越高的要求，新的数据质量诊断理论应运而生，方法越趋完善，其中对异常值的识别与处理是数据质量诊断过程中一个不可忽略的问题。本文主要从回归模型和残差分布两个方面讨论异常值的识别问题，通过对某一模型或概率分布下各种检验统计量的总结和比较，得出检验假设条件下异常值的最优方法，并运用该方法来检验我国一些宏观统计指标数据是否存在异常。　　在常规回归模型中，异常值是指对既定模型偏离较大的数据点。通过建立数据删除模型来分析某一数据点对回归分析的影响，如果该点对回归方程估计量的影响超过临界值，那么就判定该点为异常值。随着经济现象之间的关系越来越复杂，很少单纯地存在简单线性关系，于是本文在总结前人关于参数与非参数模型下异常值检验的经典研究基础上，把相应方法拓展到半变系数模型中，并利用该方法以具体模型开展实际应用分析。　　在样本统计数据中，异常值是指与数据集的主体并非来自同一分布的点，即与大部分数据不服从同一样本分布的点。尽管目前各国学者对正态分布、指数分布、极值分布、威布尔分布等分布下异常值的识别问题都做出了杰出贡献。在总结非正态分布下异常值检验问题的基础上，本文针对Ⅰ型极值分布提出能在任何情况下都避免屏蔽效应的新的统计量——F*型统计量；其次，概括了正态分布下异常值的各种检验统计量与检验方法，并借助“相对统计量”的概念对正态分布下三种常用的检验统计量进行了检验功效的比较。　　最后，在总结和评价本文主要结论及贡献的基础上，对异常值诊断的未来发展方向做了一些展望。　　

其他学术论文