强化学习在图对抗攻击中的应用及其策略迁移研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:majiguo1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是解决序列决策问题的一项重要机器学习技术,经过长时间的发展,强化学习技术已经成功应用于机器人、推荐系统、自动化控制等领域中。虽然强化学习在这些领域取得了巨大的成功,但是它的数据利用效率非常低下。针对一个单一任务,从头开始训练一个智能体往往需要与环境进行大量的交互,这导致强化学习在一些实际场景中的应用受到了一定的限制。一种提高其数据效率的方法是迁移学习,它利用从源任务中学习到的知识来加速目标任务上的训练。然而现有的迁移强化学习研究中大多尝试学习任务间公共的状态表示,利用不同任务间状态空间的相似性进行迁移,而忽略了动作空间之间的相似性。本文首先尝试将强化学习应用于图的对抗攻击研究中,然后针对应用中遇到的数据效率低下的问题,提出了一种基于动作嵌入的策略迁移方法,主要工作如下:针对图对抗攻击问题,本文引入通过添加虚假节点的攻击方式,并提出一种基于强化学习的图对抗攻击方法。本文首先将通过添加虚假节点的图对抗攻击过程建模为一个马尔科夫决策过程,其中状态使用当前图结构以及攻击目标表示,动作使用图中的节点表示。然后本文使用DQN算法来对每一个动作的效果进行评估,并选择动作来生成对抗样例。在三个公开数据集上的实验结果表明,本文提出的方法能够有效地进行图对抗攻击,且生成的对抗样例具有一定的迁移性,对其他深度学习模型同样有效果。针对迁移强化学习问题,本文提出了一种基于状态转移模型的动作嵌入学习方法,并基于此提出一个基于动作嵌入的策略迁移框架。动作嵌入学习方法通过使用智能体与环境交互产生的轨迹进行学习,策略迁移框架则通过复用状态转移模型和强化学习模型的参数进行迁移。本文在两组仿真环境以及一组真实游戏场景上对提出的方法进行验证。实验结果表明,本文提出的方法可以学习到包含动作语义信息的动作嵌入,且能够在状态空间和动作空间不同的情况下有效地进行策略迁移。
其他文献
近几年电商行业的迅猛发展,使得快递行业搭上了顺风车。以顺丰和“四通一达”为首的快递企业迎来了属于他们的行业风口。在快递行业繁荣的背后,是行业内部激烈的竞争。顺丰、
<正> 贫农女社员樊××,患结核性肠梗阻3年余,因长期延误诊断和缺乏正确治疗,以致病情频繁发作,不能进食,身体非常消瘦,直腰和下地活动困难,生活不能自理,数年来医疗费用达30
目的:了解海宁市居民健康素养水平及影响因素,为制定卫生政策和干预策略提供依据。方法:采用分层多阶段随机抽样方法确定监测对象,调查问卷采用中国健康教育中心编制的《全国
随着经济的高速发展,我国超高层建筑和大型复杂工程结构的建设规模迅速增长,以钢管混凝土(Concrete-filled Steel Tube,CFST)为代表的钢-混凝土组合结构的应用日益广泛。研究
磷是植物生长发育最重要的营养元素之一,在磷饥饿胁迫条件下,植物通过调整根系构型,改变生理代谢以及与菌类共生等方式来提高磷的吸收和利用。磷饥饿胁迫条件下,拟南芥主根伸
科学技术的不断发展进步,信息化的变革发生着倾覆性的变化。信息化技术已经渗透到社会的各行各业,智能制造的新模式应运而生。互联网平台和互联网通信技术融入制造业,经过深
作为美国女性主义戏剧家的先驱之一的苏珊·格莱斯佩尔在很长一段时间内被学术界所忽略与淡忘,直到20世纪70年代,学者们开始重新审视她的女性主义戏剧,肯定她作品的艺术价值,
目的了解广州市城乡居民健康素养现状及影响因素,为制定有效的干预措施及政策提供科学的依据。方法采用多阶段分层整群随机抽样方法,抽取广州市4 026名15~69岁常住居民进行健