基于注意力机制的特征选择：一种面向海量复杂数据的高效架构

来源 :浙江理工大学 | 被引量 : 1次 | 上传用户：lf7891

【摘要】

：

特征选择技术作为数据挖掘领域的重要研究方向,通过从原始特征集合中选取一组最有用的特征子集,具有诸多作用:有效解决“维数灾难”,降低模型的复杂度;使数据变得更易理解,有

【作者】

：

葛丹妮

【出处】

：

浙江理工大学

【发表日期】

：

2019年01期

【关键词】

：

特征选择注意力机制深度学习大数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

特征选择技术作为数据挖掘领域的重要研究方向,通过从原始特征集合中选取一组最有用的特征子集,具有诸多作用:有效解决“维数灾难”,降低模型的复杂度;使数据变得更易理解,有助于数据分析。然而,随着信息技术的迅猛发展,数据的获取变得越来越容易,这也使得特征选择所面对的数据形式发生了巨大的变化:样本规模日益增大,特征维度急剧膨胀,数据内部结构日趋复杂。现有的特征选择方法不管是从计算模式还是从技术方法的设计上来说都难以较好地应对这些变化,存在着很多缺陷。因此,如何面向海量复杂的数据进行高效的特征选择成为一个具有重要研究意义的课题。基于深度学习的特征选择研究是目前特征选择技术的前沿研究领域,被认为具有处理海量数据的能力,可以有效应对大数据下的特征选择。然而,目前该领域的研究工作目前还难以应对复杂数据下的特征选择:当数据发生复杂变化时(比如添加噪声干扰、标注样本急剧减少、样本特征为时序结构等),目前特征选择方法的性能往往不稳定甚至失效。本文从一个全新的角度来考虑特征选择机制,在结合深度学习技术的基础之上,提出了一个全新的基于注意力模型的特征选择架构。具体的研究工作如下:1)针对特征选择在大样本数据中难以兼顾计算复杂度和性能、受噪声干扰的问题,发展了一种新的基于深度学习的特征选择方法,将特征的重要性评估转换为注意力在所有特征维度上的分配问题,称为基于注意力机制的特征选择(Attention-based Feature Selection,AFS)。AFS由两个松散连接的模块组成:用于特征权重生成的注意模块和用于问题建模的学习模块。其中注意模块的核心是在每个特征维度上利用二分类模型来衡量该特征是否被选择,将其作为分配到的注意力。本文在MNIST数据集以及MNIST的噪声数据集上进行实验,结果表明AFS在有噪声干扰的情况下仍然有高准确率和优异的去冗余能力,其中提高的准确率最高可以达到9%,同时其计算复杂度较低,还可以通过模型重用机制来进一步降低计算复杂度;2)针对特征选择在小样本数据中容易过拟合的问题,提出基于混合策略的AFS方法,称为AFS-hybrid。该方法在AFS的基础之上,结合现有的特征选择方法进行改进。类似于增加训练样本,通过使用现有的特征选择方法生成的权重构造模拟样本数据,在注意模块进行预训练,使其先收敛到局部最优值,再从局部最优值出发,使用真正的小样本数据进行训练,使其更容易收敛到全局最优值,从而缓解过拟合问题。同时由于以AFS框架为基础,有利于保留原有的优点,如抗噪声干扰的高鲁棒性、优异的去冗余能力等。使用公开的小数据集Isolet-5和Lung_discrete进行实验,结果表明使用AFS-hybrid可以明显提高建模性能;3)针对特征选择在高频时序数据中难以定位时滞时刻的问题,提出基于多层注意力模型的AFS方法,称为AFS-multilayer。为了准确地同时度量时序样本数据在特征参数维度以及特征时序维度上的重要性,在AFS架构的基础上添加对应于特征时序维度的注意力模型,从而全面地考虑特征的参数和时序维度,并得到两种注意力值,将它们同时施加到对应的特征维度上,并通过学习模块进行反向传播调整注意力的值。实验表明,这样的分层设计可以准确捕获关注参数的时滞时刻,AFS-multilayer在简单的MISO工业数据集上取得比其他特征选择方法更优异的定位效果。

其他文献

山东省玉米和小麦田地下害虫发生与土壤地力的关联性研究

为了探究地下害虫发生与土壤地力之间的关系,本研究选取山东省五种土壤类型(棕壤土、褐土、盐碱土、潮土、砂姜黑土)为代表的八个地区,利用棋盘式取样法分别在玉米、小麦田中同时进行了地下害虫调查和土壤地力调查,明确了山东省主要地下害虫的空间分布及土壤因子状况,同时结合收集到的19902015年的历史发生数据,经预处理后利用基于R语言的随机森林算法进行分析,探究了三种主要地下害虫发生与土壤因子之间的关联性。

学位

地下害虫土壤因素玉米田小麦田监测预警

维格列汀治疗老年2型糖尿病合并非酒精性脂肪肝患者的疗效

目的探讨维格列汀治疗2型糖尿病合并非酒精性脂肪肝老年患者的疗效。方法 2型糖尿病合并非酒精性脂肪肝患者128例为研究对象,随机分为观察组和对照组各64例,对照组患者采取

期刊

2型糖尿病非酒精性脂肪肝维格列汀二甲双胍

非物质文化遗产视角下济宁查拳的传承与发展研究

传统武术作为非物质文化遗产的重要组成部分,是中华民族文化与精神的象征。查拳属于我国长拳类代表拳种之一,是传统武术中的优秀拳种,在传统武术之林中独具一格,查拳目前在山

学位

非物质文化遗产济宁查拳传承与发展

基于GPBL模式的高阶能力评测案例研究

随着现代科学的不断进步,以低阶知识、低阶能力为培养目标的人才培养框架已经严重滞后于社会发展对人才素养提出的新要求,高阶能力成为信息时代人才素养结构的重要组成部分。

学位

GPBL学习模式高阶能力发展评测框架

中国依法治国的历史沿革及转折

依法治国是中国共产党的一项历史性事业,也是中国当前深化改革事业的一项战略性任务,关系到中国治理方式的历史性转换,是中国治理现代化的关键所在。按照历史的发展进程来研

期刊

依法治国历史沿革范式转换

分析左卡尼汀联合促红素治疗维持性血液透析肾性贫血的临床疗效

目的对维持性血液透析肾性贫血的患者进行治疗时选择左卡尼汀联合促红素的方法,对其临床疗效展开探讨。方法本研究涉及到的研究对象为我院在2014年9月至2017年12月进行维持

期刊

左卡尼汀促红素维持性血液透析肾性贫血

日汉医疗健康访谈模拟交替传译实践报告

实践报告选取的素材是日本放送协会(NHK)每周一到周五晚上10点~10点50分播出的新闻广播节目“NHKジャーナル”中的医疗健康访谈板块。该板块除了医疗健康话题外,还涉及到体育

学位

交替传译翻译技巧医疗健康连贯原则

基于供应链管理的H公司成本控制研究

随着我国制造业的不断发展和完善,我国饮料工业以年均递增15%以上的高增长率飞速发展。饮料制造业快速发展的同时,饮料企业的成本也在日益增加,面临着成本控制的挑战。从长期

学位

饮料企业供应链管理成本控制

基于价值流分析的E公司物料调度改善

物料调度是离散型制造实现顺利生产的重要保证。E公司是一家生产铁路产品的离散型制造企业,高铁产业的异军突起促使该企业的产品需求量大增,此时提升物料调度效率,成为了企业

学位

价值流分析多批次物料调度路径规划拉动式物料超市

我与《数学教学》的缘分

值此《数学教学》创刊60年之际,鲍建生主编邀我写点什么,形式不定、长短不定.写点什么呢？思索再三,还是想说说我与本刊的缘分,回顾一下我从本刊得到的专业成长的帮助.我与《数

期刊

数学教育《数学教学》

基于注意力机制的特征选择：一种面向海量复杂数据的高效架构

其他学术论文