论文部分内容阅读
运用贝叶斯推断方法解决现实中的一些回归分析难题,是最近几年回归分析领域中的一个热门方向。本文以台风最大风速的预测问题为应用背景,针对该应用背景的输入变量多、样本间相关性、数据异常三大问题,采用贝叶斯框架下的三种方法:高斯过程回归模型、稀疏贝叶斯回归模型、概率主成分分析进行建模。本文主要做了以下四个方面的研究:(1)在使用高斯过程回归模型建模之前,针对输入变量较多以及输入变量与输出变量之间的非线性变化特点,计算各个输入变量和输出变量间的互信息,这些互信息间接地反映了各个输入变量和输出变量间的相关性。根据t检验法确定一个阈值,对于互信息小于阈值的输入变量作不相关变量处理,筛选出最佳的模型输入变量。然后采用高斯过程回归模型对筛选后的样本集进行拟合,在贝叶斯非参数建模的框架下,确定高斯过程回归模型的协方差函数。仿真结果表明,所得高斯过程模型能够满足绝对误差的预定要求,且具有很大的实用价值。(2)在使用稀疏贝叶斯回归模型建模之前,针对不同地区数据样本集间差异性很大等问题,引进混合模型的概念。考虑模糊C-均值聚类算法在初始聚类中心选择方面面临的弊端,提出了采用模拟退火遗传算法对初始聚类中心加以优化,以便提高聚类的准确性,最后采用稀疏贝叶斯回归模型对各子类样本分别建立稀疏高效的子模型。仿真结果验证了该混合模型的有效性。(3)针对前面工作中在聚类个数确定方面的主观性太强的缺陷,这一部分采用仿射传播聚类算法快速客观地对训练样本进行聚类。仿射传播聚类算法既不需要人为设定聚类数目,也不需要随机初始化聚类中心,能够充分考虑数据样本间的相似度,合理地对数据样本进行聚类,并将其划分为多个子类。子模型仍然采用稀疏贝叶斯模型建立,稀疏贝叶斯优越的稀疏性,降低了模型的复杂度。仿真结果表明,该混合模型比基于改进模糊C-均值聚类的混合模型有更好的预测效果。(4)在输入变量较多的情况下,由于人为原因或者仪器原因,容易发生遗失数据的情况,采用基于概率主成分分析的遗失数据重构方法,将异常数据和待预测变量均看作遗失数据处理。仿真结果表明,该方法的预测误差也能满足台风最大风速预测的绝对误差的预定要求,而且该方法比回归分析方法更为灵活。