统计数据异常诊断方法及应用——基于回归模型与残差分布视角

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:haoaini0413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
运用统计数据分析与预测国家经济特征及走势已是众多专家学者乃至业余人士的惯用方法,然而随着信息化的深入发展,人们对数据质量提出了越来越高的要求,新的数据质量诊断理论应运而生,方法越趋完善,其中对异常值的识别与处理是数据质量诊断过程中一个不可忽略的问题。本文主要从回归模型和残差分布两个方面讨论异常值的识别问题,通过对某一模型或概率分布下各种检验统计量的总结和比较,得出检验假设条件下异常值的最优方法,并运用该方法来检验我国一些宏观统计指标数据是否存在异常。   在常规回归模型中,异常值是指对既定模型偏离较大的数据点。通过建立数据删除模型来分析某一数据点对回归分析的影响,如果该点对回归方程估计量的影响超过临界值,那么就判定该点为异常值。随着经济现象之间的关系越来越复杂,很少单纯地存在简单线性关系,于是本文在总结前人关于参数与非参数模型下异常值检验的经典研究基础上,把相应方法拓展到半变系数模型中,并利用该方法以具体模型开展实际应用分析。   在样本统计数据中,异常值是指与数据集的主体并非来自同一分布的点,即与大部分数据不服从同一样本分布的点。尽管目前各国学者对正态分布、指数分布、极值分布、威布尔分布等分布下异常值的识别问题都做出了杰出贡献。在总结非正态分布下异常值检验问题的基础上,本文针对Ⅰ型极值分布提出能在任何情况下都避免屏蔽效应的新的统计量——F*型统计量;其次,概括了正态分布下异常值的各种检验统计量与检验方法,并借助“相对统计量”的概念对正态分布下三种常用的检验统计量进行了检验功效的比较。   最后,在总结和评价本文主要结论及贡献的基础上,对异常值诊断的未来发展方向做了一些展望。  
其他文献
文章结合辽东湾新区城市设计实践,从多个角度就城市设计如何更有效地指引规划实践进行了探索,基于整体自然观理念提出了构建生长的城市的三个手段:一是循流生长的城市设计方法,即遵循自然过程,梳理生态系统中的自然流,通过情境模拟评估水土共轭关系,通过风流模拟优化空间形态,确定城市生态网络格局与土地开发强度;二是循序演进的动态发展模式,即遵循城市生长规律,融入动态城市设计的理念,对比分析不同情境下城市的生长过