循环注意力模型的训练优化策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangbuhe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习在计算机视觉,机器翻译,语音识别等领域取得了极大的成功,在多个应用领域上取得了当前的最好成绩。但是这些模型所取得的高精确度主要来源于在训练以及检测时投入了高额计算成本。传统的深度学习的一个主要运算瓶颈在于需要对整幅图像处理,而人类视觉只需要将视觉焦点集中在当前感兴趣的区域上,这一特点能够很有效的减少人类视觉系统的“带宽”。在视觉领域中,尽管研究人员提出了如减少滑动窗口的方法以提高计算效率,但是深度模型的计算成本依然跟输入图像的大小成正比。为了解决该问题,本文模拟人类视觉系统特点引入注意力机制。目前的注意力机制主要分为Soft Attention以及Hard Attention。Soft Attention基于显著图的可微模型,而Hard Attention采用离散的注意力位置产生凝视(Glimpse)区域来产生注意力特征。本文从Hard Attention出发,基于循环注意力模型(RAM)提出了两种优化策略——OV-RAM以及EM算法,并且在弱标记的数据集Translated MNIST以及Cluttered MNIST上进行了测试。循环注意力模型基于RNN,能够每次凝视不同的感知区域从而更新自身隐含状态,通过这些累积信息来做决策。由于每次只处理感兴趣的小部分区域,所以运算效率比传统深度学习网络更高。由于循环注意力采用了离散的、不可导的注意力位置,并且运用了强化学习来求解注意力位置选择策略,这使得循环注意力模型训练速率较慢。本文借鉴前人的模型,将Soft Attention与Hard Attention结合,给循环注意力模型加入Overview层以提供上下文信息,得到OV-RAM模型。同时,本文分析了循环注意力模型结构中的问题,从有监督学习的角度重新推导了目标函数,将两个耦合部分拆分,从而引入EM算法对进行训练。最后,我们对一些失败样例进行了分析,并给出了一些解决措施。本文使用Translated MNIST以及Cluttered MNIST数据集进行训练及测试。实验结果证实,本文提出的OV-RAM以及EM算法能够有效的提升循环注意力模型的训练速率。该方法只需要更短的迭代次数就可达到同样的收敛精度,证明了本文提出的两种优化策略的有效性。
其他文献
在当今社会中云计算已经成为支撑众多高新技术发展的基础设施之一。然而,数据中心的高能耗制约了云计算的健康发展,与高能耗形成鲜明对比的是数据中心普遍低下的能源效率。因
无线传感器网络由于传感器节点存储能力、计算能力以及能量有限,设计适合无线传感器网络的高效路由协议成为关键技术之一。本文改进了响应型层次路由协议TEEN,将平面路由协议
生物信号是通过物理方法获得的,定量描述人体健康状况的物理信号。它可以是电信号,也可以是压力信号,例如脑电信号、心电信号、脉搏信号等,医生通常根据这些生物信号的变化诊
随着计算机和多媒体技术的发展,海量数据资源也急剧增长,尤其是图像信息备受人们的重视。基于内容的图像检索技术也就应运而生。近年来出现的大规模图像数据库,更是促进了图
文物是宝贵的历史文化遗产,具有重要的历史与艺术价值,由于老化以及人为破坏等因素,文物的保护工作面临着很多困难。古代壁画作为一类常见的文物,除了常规的保护手段外,还可
在开发基于Web的企业应用系统中,由于模块相似性比较大,导致重复性的编码工作比较多,而通常这些编码工作都是采用复制、粘贴的软件复用方式,造成编码容易出错、维护困难等问题。
支持向量机(Support Vector Machine,SVM)是一种基于统计学习理论的新型机器学习方法,具有全局最优、结构简单、推广能力强等优点,因此得到了广泛的研究和应用。但是SVM方法最初
随着移动计算、无线通信技术及GPS等技术的迅速发展,基于位置服务越来越受到重视,因此移动对象位置查询变得可行和必需。在交通网络中,移动对象将更新的位置信息提交给移动对
随着异构多核处理器的快速发展,异构多核系统中的任务调度成为研究热点。目前,适用于普通任务集调度的算法在调度细粒度任务集时,存在处理器负载失衡,处理器空闲时间多,并行性差和
随着移动机器人应用范围的扩大,其工作环境也日益复杂,往往是非结构化的、部分或全部未知的。局部路径规划侧重于使用传感器实时感知环境信息,使其能适应复杂的工作环境,及时有效