论文部分内容阅读
特征选择技术作为数据挖掘领域的重要研究方向,通过从原始特征集合中选取一组最有用的特征子集,具有诸多作用:有效解决“维数灾难”,降低模型的复杂度;使数据变得更易理解,有助于数据分析。然而,随着信息技术的迅猛发展,数据的获取变得越来越容易,这也使得特征选择所面对的数据形式发生了巨大的变化:样本规模日益增大,特征维度急剧膨胀,数据内部结构日趋复杂。现有的特征选择方法不管是从计算模式还是从技术方法的设计上来说都难以较好地应对这些变化,存在着很多缺陷。因此,如何面向海量复杂的数据进行高效的特征选择成为一个具有重要研究意义的课题。基于深度学习的特征选择研究是目前特征选择技术的前沿研究领域,被认为具有处理海量数据的能力,可以有效应对大数据下的特征选择。然而,目前该领域的研究工作目前还难以应对复杂数据下的特征选择:当数据发生复杂变化时(比如添加噪声干扰、标注样本急剧减少、样本特征为时序结构等),目前特征选择方法的性能往往不稳定甚至失效。本文从一个全新的角度来考虑特征选择机制,在结合深度学习技术的基础之上,提出了一个全新的基于注意力模型的特征选择架构。具体的研究工作如下:1)针对特征选择在大样本数据中难以兼顾计算复杂度和性能、受噪声干扰的问题,发展了一种新的基于深度学习的特征选择方法,将特征的重要性评估转换为注意力在所有特征维度上的分配问题,称为基于注意力机制的特征选择(Attention-based Feature Selection,AFS)。AFS由两个松散连接的模块组成:用于特征权重生成的注意模块和用于问题建模的学习模块。其中注意模块的核心是在每个特征维度上利用二分类模型来衡量该特征是否被选择,将其作为分配到的注意力。本文在MNIST数据集以及MNIST的噪声数据集上进行实验,结果表明AFS在有噪声干扰的情况下仍然有高准确率和优异的去冗余能力,其中提高的准确率最高可以达到9%,同时其计算复杂度较低,还可以通过模型重用机制来进一步降低计算复杂度;2)针对特征选择在小样本数据中容易过拟合的问题,提出基于混合策略的AFS方法,称为AFS-hybrid。该方法在AFS的基础之上,结合现有的特征选择方法进行改进。类似于增加训练样本,通过使用现有的特征选择方法生成的权重构造模拟样本数据,在注意模块进行预训练,使其先收敛到局部最优值,再从局部最优值出发,使用真正的小样本数据进行训练,使其更容易收敛到全局最优值,从而缓解过拟合问题。同时由于以AFS框架为基础,有利于保留原有的优点,如抗噪声干扰的高鲁棒性、优异的去冗余能力等。使用公开的小数据集Isolet-5和Lung_discrete进行实验,结果表明使用AFS-hybrid可以明显提高建模性能;3)针对特征选择在高频时序数据中难以定位时滞时刻的问题,提出基于多层注意力模型的AFS方法,称为AFS-multilayer。为了准确地同时度量时序样本数据在特征参数维度以及特征时序维度上的重要性,在AFS架构的基础上添加对应于特征时序维度的注意力模型,从而全面地考虑特征的参数和时序维度,并得到两种注意力值,将它们同时施加到对应的特征维度上,并通过学习模块进行反向传播调整注意力的值。实验表明,这样的分层设计可以准确捕获关注参数的时滞时刻,AFS-multilayer在简单的MISO工业数据集上取得比其他特征选择方法更优异的定位效果。