基于深度Q网络的算法与模型研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:monzad
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度强化学习是机器学习领域中一个新的研究热点。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并通过端对端的方式学习从原始输入到动作输出的一个映射。在许多基于视觉感知的大规模决策任务中,深度强化学习方法已经取得突破性的进展。其中深度Q网络方法在解决一类视频游戏任务时表现出了和人类玩家相媲美的水平。然而在一些现实场景下的复杂问题中,深度Q网络会面临奖赏的稀疏和延迟、部分状态可观察、收敛速度慢、性能不稳定等一系列问题。本文针对上述问题,从训练算法和模型架构两方面对深度Q网络方法进行了改进和完善,并提出三种高效的深度强化学习算法或模型:  (1)针对深度Q网络训练算法不能区分不同转移序列之间重要性差异的问题,提出一种基于优先级采样深度Q学习算法。该算法使用一种高效的基于优先级的经验回放机制来替代随机采样,提高了有价值转移样本的利用率,并保证样本空间中每个转移序列都有一定大小的采样概率,从而提升了算法收敛的速率。  (2)针对深度Q网络算法不擅长解决战略性决策任务的问题,提出一种基于视觉注意力机制的深度循环Q网络模型。新的模型架构主要有两处创新点:一是使用由双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史状态信息,以使得智能体能够及时响应有延迟的奖赏;二是使用视觉注意力机制自适应地将智能体的注意力集中于面积较小但更具价值的图像区域,减小了模型中可训练的权重数目,从而加快了学习最优策略的进程。  (3)针对深度确定性策略梯度算法在解决连续动作空间问题时性能不稳定的问题,提出一种基于混合目标Q值的深度确定性策略梯度方法。新算法通过结合使用在策略的MC估计和离策略的Q学习方法生成一种混合型的目标Q值,降低了目标Q值的评估误差,提升了算法在连续动作空间问题中的性能和稳定性。
其他文献
本体作为共享概念模型的形式化规范说明,具有良好的概念层次结构和语义表达能力,已经引起越来越多国内外专家学者的关注,并在知识工程、语义检索等领域得到广泛应用。然而,现
词是最小的能独立表示语义的语言单位,因而是处理各种自然语言文本的基础。汉语书写显得很特别,因为它没有明确的标志将词与词分开,而是一段连续的汉字串。如何把汉字串正确
跨层设计是最近几年通信网络领域研究的热点之一。跨层设计是相对于传统的分层设计思想而言的。传统的分层设计思想在有线网络设计中的应用非常成功。但是在无线网络中,传统
为了满足基于无线传感器网络的危险品运输监测系统的高可靠性和高实时性,在设计时必须要求传感器节点的低功耗和系统对事件处理的实时性响应,从而实现车辆在行驶状态中传感器
膜计算是生物计算的分支,是从生物活细胞的功能和结构中抽象出来的计算模型。膜计算又称之为P系统,是由罗马尼亚科学家Gh.Paun于1998年提出的一种计算模型,为计算机科学带来
Internet上面的信息数量与日俱增,使得互联网的使用者已经很难以地址栏输入地址或简单的导航网站等方式准确、有效地找到所需内容。搜索引擎的出现给这个问题提供一个有效的解
当今世界,科学技术飞速发展,信息技术日新月异。随着网络技术快速发展和在教育中的广泛应用,针对网站和网络设备的监控已经成为网络发展中必然产物。如何选择一个适合的监控
潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种流行的主题模型算法。它对每篇文本以及文本中每个单词进行主题层次上的聚类,将高维稀疏的文本单词矩阵分解成两个相对
随着信息技术的普及和深入应用,企事业已将大量以各种形式存在的关于顾客、产品开发和协作知识等的信息存储于内部的信息管理系统中;同时因特网上也出现了大量企事业感兴趣的
在机器学习领域的分类问题中,对于待分类的样例,当我们用于判断其类别的属性个数很多时,用传统的分类算法建立分类器,消耗较多的计算机时间和空间。近年来,研究学者们对数据