论文部分内容阅读
在运用支持向量机进行高维数据分类时,我们往往在支持向量机中加入某些惩罚以去除不相关的预测因子,提高预测准确率。Lasso和其他变量选择方法已成功应用到支持向量机中,达到自动进行变量选择的效果。但在许多实际问题中,简单的线性可加模型不能够很好的捕捉到预测因子与响应变量之间的关系,加入变量的交互项会使模型预测力增强。例如,在疾病诊断时,两种症状的同时发生会帮助医生做出更明确的判断;在寻找病因时,基因与基因、基因与环境因素的相互作用显得尤为重要。当存在交互项时,变量之间潜在存在着分层结构,Lasso等方法所得到的模型常常违背这种分层结构,使所得模型难以解释。因此本文在支持向量机中进行变量选择的同时施加结构约束,使得求解的超平面遵循强分层的约束,即交互项系数不为0,其主项系数也不为0。首先将交互项系数改写成包含主项系数乘积的形式,使求解的模型自然存在分层结构;其次在最小化平方合页损失函数的同时,加入Lasso的惩罚形式,为了进一步提高预测准确率及变量选择的效果,引入adaptive的思想,对不同系数施加不同程度的惩罚,模型采用两个调整参数,从而在变量选择上具有灵活性,即主项系数未被压缩为0时,交互项系数也有可能被压缩为0;最后在模拟数据上进行验证,从预测因子相关与不相关、交互项存在与不存在、交互项效应相对主效应的大小、真实模型是否满足强分层约束等方面来展示本文模型的优势。相比于L1-SVM,本文模型在遵循分层结构的基础上,不但能够提高预测准确率,而且能够较准确的选出相关变量,剔除冗余变量,在实际数据上的表现也具有一定的优势。