【摘 要】
:
在人类的学习过程中,从一开始的一无所知,发展到在所处环境中适应的游刃有余,靠的是个体不断在环境中的探索与试错。若将此过程放在机器人等智能领域,是否也可以使智能体对特定环境的探索,如同人类的学习过程一样。在机器学习中的强化学习分支,将赋予智能体这样探索环境的本领。但单一的探索与大量的数据存储,不仅会耗费时间与空间,对智能体本质的智能化提升并没有多少成效。随着强化学习算法领域的不断创新与发展,在原有单
论文部分内容阅读
在人类的学习过程中,从一开始的一无所知,发展到在所处环境中适应的游刃有余,靠的是个体不断在环境中的探索与试错。若将此过程放在机器人等智能领域,是否也可以使智能体对特定环境的探索,如同人类的学习过程一样。在机器学习中的强化学习分支,将赋予智能体这样探索环境的本领。但单一的探索与大量的数据存储,不仅会耗费时间与空间,对智能体本质的智能化提升并没有多少成效。随着强化学习算法领域的不断创新与发展,在原有单一的模型已知算法的基础上,已经逐步拓宽至模型未知的条件下强化学习算法,并形成了以Q-Learning算法为基础的各类算法,用以解决各类机器学习问题。本文基于上述背景下,以马尔科夫决策过程相关理论作为切入点,选取智能体在环境探索中动作与决策作为研究对象,分析对比了现有强化学习算法,结合实际场景的大背景需求下,设计实现了以Q-Learning为基础的改进算法,。根据所研究的智能体动作控制与决策行为,选取Atari 2600作为实验环境,并从智能体的动作行为、决策判断等多方面对所设计的改进算法进行性能测试,经过足够长的训练学习,本文所设计的改进算法在动作控制方面、行为决策方面,相较于未加改进的对比算法,体现出明显的智能化与自主化。在宏观表现中相较于同实验中的对比算法,在回合得分中也较为出色,在较短的训练周期中,获得较高的学习效率,由此体现出改进算法不仅在智能体的动作行为控制方面得到了较大的提升,在环境中也同样拥有着较为快速的适应性,达到快速积累学习经验的效果。经过实验对比分析后,本文所设计的改进算法,对智能体的动作控制与决策等性能有了一定改善与提高。
其他文献
作为陶瓷上的经典题材,花鸟纹自唐代出现于长沙窑后,经宋、元两朝发展,在明清时期的景德镇,迎来了发展的巅峰。所谓“瓷必有画,画必有意”,花鸟纹所承载的“意”,不仅仅体现
介绍了三维软件底层API的功能性质以及在二次开发技术中的作用;利用VBA编写的宏命令对软件草图、模型等进行控制,以实现具体的功能;结合数据库知识,论述了与软件相关的插件基
腊尔山台地剪纸艺术是根植于湘、黔地区的民间艺术,它以苗族文化为根基又融合了汉族文化的精粹。腊尔山台地剪纸作为剪纸底样服务于刺绣,具有实用功能,其纹样丰富,造型多变,
目的探讨MRI在脊柱压缩骨折病因鉴别诊断中的作用.方法回顾性分析114例经临床病理证实的脊柱压缩骨折,分别观察分析椎体、椎间盘、附件等的病理性形态及MRI信号改变.结果脊柱
电解海水技术,是指利用电化学方法从海水中提取原料二氧化碳(CO2)和氢气(H2),利用电解技术产生氢气,将电解过程产生的H+对海水进行酸化。通过此方法制得高纯度二氧化碳和氢气
<正> ××同志:还在仲夏就收到你的远方来信。你对当前文学问题的关心,使我很感动。是的,正如你所说,我们的社会主义文学已迎来一个复兴时期,几年来无论诗歌、小说、戏剧、散文各个领域,都新人辈出,新潮叠起,新作如春花竞放。这种繁荣景象为建国三十年来所未有,也为五四新文学运动以来所未有。文学的读者在今天中国土地上以亿万计。所以,人们对文学问题产生普遍的关
本学位论文主要研究了两类具可乘(可加)性白噪音的随机演化方程的D-拉回吸引子,而随机吸引子是描述随机动力系统动力学行为的一个重要概念,研究这些随机演化方程的D-拉回吸引
目的调查重庆市社区老年人衰弱、认知衰弱现况,并对其影响因素进行探讨,为后期社区医护人员开展衰弱、认知衰弱干预工作以及构建适合社区老年人衰弱、认知衰弱的管理模式提供参考依据。方法采用多阶段分层抽样法,于2018年9月-2019年8月选取重庆市社区老年人(≥60岁)1095例作为研究对象。采用基本情况调查表(包括社会人口学资料、生活行为习惯资料、基本体格指标资料)、简易营养评价精法(MNA-SF)、阿