论文部分内容阅读
强化学习是解决序列决策问题的一项重要机器学习技术,经过长时间的发展,强化学习技术已经成功应用于机器人、推荐系统、自动化控制等领域中。虽然强化学习在这些领域取得了巨大的成功,但是它的数据利用效率非常低下。针对一个单一任务,从头开始训练一个智能体往往需要与环境进行大量的交互,这导致强化学习在一些实际场景中的应用受到了一定的限制。一种提高其数据效率的方法是迁移学习,它利用从源任务中学习到的知识来加速目标任务上的训练。然而现有的迁移强化学习研究中大多尝试学习任务间公共的状态表示,利用不同任务间状态空间的相似性进行迁移,而忽略了动作空间之间的相似性。本文首先尝试将强化学习应用于图的对抗攻击研究中,然后针对应用中遇到的数据效率低下的问题,提出了一种基于动作嵌入的策略迁移方法,主要工作如下:针对图对抗攻击问题,本文引入通过添加虚假节点的攻击方式,并提出一种基于强化学习的图对抗攻击方法。本文首先将通过添加虚假节点的图对抗攻击过程建模为一个马尔科夫决策过程,其中状态使用当前图结构以及攻击目标表示,动作使用图中的节点表示。然后本文使用DQN算法来对每一个动作的效果进行评估,并选择动作来生成对抗样例。在三个公开数据集上的实验结果表明,本文提出的方法能够有效地进行图对抗攻击,且生成的对抗样例具有一定的迁移性,对其他深度学习模型同样有效果。针对迁移强化学习问题,本文提出了一种基于状态转移模型的动作嵌入学习方法,并基于此提出一个基于动作嵌入的策略迁移框架。动作嵌入学习方法通过使用智能体与环境交互产生的轨迹进行学习,策略迁移框架则通过复用状态转移模型和强化学习模型的参数进行迁移。本文在两组仿真环境以及一组真实游戏场景上对提出的方法进行验证。实验结果表明,本文提出的方法可以学习到包含动作语义信息的动作嵌入,且能够在状态空间和动作空间不同的情况下有效地进行策略迁移。