论文部分内容阅读
最小二乘支持向量机(least squares support vector machine,LSSVM)是一种遵循结构风险最小化(structural risk minimization,SRM)原则的核函数学习机器,近年来化学、化工领域的应用日益广泛。本文以LSSVM在实际应用中的若干问题为主线,针对其应用中存在的高维数据降维、超参数选择和稀疏性等问题,提出了若干新算法,并应用于化学物质结构与性质间关系、化工生产过程等实际问题建模,效果显著。全文的主要内容可以归结为以下六个部分,其中包括了研究工作所取得的主要成果。1、系统回顾了统计学习理论和支持向量机的发展历史、研究现状与应用领域;介绍了支持向量机原理,及其应用中存在的一些问题。2、针对支持向量机解决非线性分类问题时,必须先将样本向量由原空间映射至高维重建核Hilbert空间的特点,利用核函数技术将线性的分类相关分析算法拓展至高维的重建核Hilbert空间,此即非线性分类相关分析(nonlinear classification correlative analysis,NLCCA)算法。最后,将NLCCA与线性支持向量分类器(linear support vector classifier,LSVC)集成得到NLCCA-LSVC,并应用于两个典型的复杂化学模式识别问题。3、对于小样本的LSSVM函数回归问题,在快速留一法的基础上,以全样本的留一预测误差平方和sse为目标,导出了sse对超参数的梯度,并据此以最速下降法优选超参数,构建G-LSSVM模型。最后将之用于一个小样本、非线性柠檬酸发酵过程建模问题。4、由于神经网络、LSSVM等经验模型的精度完全依靠测量数据,导致经验模型不能将实际过程的先验知识融合在内,所以模型的预报有时会与过程机理相矛盾。针对二元恒温(恒压)汽液平衡体系的汽相组成计算问题,为解决这一问题,在胡英等人工作基础上,将Gibbs-Duhem方程与多层前传神经网络和LSSVM结合,建立了融入先验知识的汽相组成计算混合模型,使得计算结果受Gibbs-Duhem方程约束。最后混合模型被应用于2个实际二元汽液平衡体系的计算。5、由于计算经验风险的损失函数为二次函数形式,LSSVM丧失了标准支持向量机的稀疏性,导致其训练完毕之后,用于分类时效率降低;为使LSSVM具有稀疏性,本文从统计分析的角度出发,选取训练样本中分类作用最大的若干样本个体作为支持向量,并将非支持向量上的分类信息转移至支持向量上,提出了新的LSSVM稀疏化算法,最后将两种新的LSSVM稀疏化应用于若干实际分类问题。另外,本文提出的稀疏化算法可直接应用于多类问题。6、本文利用核函数矩阵的奇异值分解,得到了可以节省超参数选取时间的分类器:SVD-LSSVM。SVD-LSSVM用奇异值贡献率来平衡经验风险与LSSVM的模型复杂度,从新的途径实现了SRM原则。论文还分析了研究工作的不足,并展望了今后的发展。