论文部分内容阅读
偏最小二乘(PLS)回归是一种基于高维投影思想的新的非参数回归方法,可有效地将多元回归、主成分分析以及典型相关分析等功能有机地结合起来,因此,它已被誉为第二代多元统计分析方法。识别特异点和对变量集实施降维是回归建模前的两个重要的数据分析预处理过程。本文基于PLS回归模型,结合非线性核主成分分析、二叉树等多种方法,提出了改进的非线性偏最小二乘回归模型、二叉树降维方法和降维二叉树评价方法,并扩展了特异点识别方法。主要研究内容如下:提出了一种改进的非线性偏最小二乘回归模型。传统的线性及非线性PLS回归模型计算因变量集与提取的主成分之间的线性回归,而没有考虑因变量集和主成分之间可能是非线性关系。本文把因变量集对各个主成分的线性回归改进为可根据具体情况选择线性回归或非线性回归,每个主成分依旧表示成原始自变量集的线性回归方程。本文还具体分析并建立了汽车油耗及其他十个设计及性能方面的指标之间的非线性回归模型。提出了高维空间的二叉树降维方法及降维二叉树评价方法。本文提出了将传统的整体降维,改进为从局部降维再延伸到全局降维的一种逐步降维的新方法。如果样本变量数n过大,可对相关性最强的两个变量实施主成分分析或核主成分分析:提取第一个成分变量代替原来的两个变量,样本变量数则降维为n ?1,循环执行此降维过程,直到满足精度为止。整个降维过程表现为一棵二叉树或残缺二叉树。根据降维二叉树评价方法,采用天津市2008年各区县经济发展指标,具体对天津市18个区县的经济发展水平进行了科学的评价。分析并扩展了高维空间的特异点识别方法。在基于PLS回归识别特异点的分析技术基础上,将识别特异点的二维平面T 2椭圆图方法扩展到三维空间T 2椭球和高维空间T 2超椭球,同时基于谱系聚类法,提出了基于高维空间主成分谱系图的特异点识别方法,并对我国主要省份、城市的汽柴油价格进行了分析。