基于深度强化学习的智能决策模型研究

来源 :北京交通大学 | 被引量 : 4次 | 上传用户:windtree
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,人工智能在我们生活的各个领域发挥着作用,自动驾驶、人脸识别、智能机器人等人工智能的产物都在表现着它的强大。机器学习是人工智能的基础和核心,而强化学习是机器学习研究领域的一个充满前景的方向。强化学习通过让智能体与环境交互生成样本,缓解了其他机器学习算法过于依赖样本数量的问题。强化学习算法从生成的样本中汲取经验,根据经验继续交互过程,通过这一自学习的方式不断改进更新决策策略,逐步达到最优决策效果。深度强化学习在强化学习优秀决策能力的基础上进一步结合了深度学习的感知能力,通过利用神经网络来提取智能体状态,使得算法更加强大。自提出以来,深度强化学习在理论研究和工程应用方面均取得了显著的成果,如DQN算法、Alpha Go等,让深度强化学习算法更进一步地应用于各个领域。强化学习可以无模型无监督地来让计算机进行智能决策,具有适用范围广泛、通用性强、不依赖样本等优点,具有广阔的应用前景。因此,研究深度强化学习在智能决策领域具有重要的理论价值和工程应用价值。本文基于深度强化学习算法对路径规划和目标分配中的智能决策问题进行研究。在路径规划问题中,本文根据应用场景的复杂程度,分别形式化表示了4个具有不同环境的路径规划问题。针对以上四个问题,分别进行马尔可夫决策过程建模,进而提出或实现了多个强化学习和深度强化学习决策算法,并进行实验验证。以此探索强化学习和深度强化学习算法在路径规划问题上的可行性。按照由简单到复杂的研究路线,本文训练出了在不同环境下决策效果优秀的路径规划智能决策模型在目标分配问题中,本文将问题分别表示为不考虑时间因素的目标分配问题和考虑时间因素的目标分配问题,并通过遗传算法和深度强化学习算法对问题进行求解。通过对比求解结果,探究深度强化学习算法在目标分配问题上的可行性和效果。首先,针对不考虑时间因素的目标分配问题,本文使用遗传算法和微生物遗传算法进行建模求解。其中,微生物遗传算法能够更快地计算出不考虑时间因素的目标分配问题的最优解。其次,针对考虑时间因素的目标分配问题,本文进行马尔可夫决策过程建模,探索基于深度强化学习算法的目标分配决策模型,提供了解决目标分配问题的另一种方案。本文对提出的基于深度强化学习的多个路径规划和目标分配智能决策方案进行了实现,并进行了大量的实验验证。实验结果表明,本文提出的建模方法和解决方案可以达到预期目标,并为下一步在复杂场景的应用和部署提供了支持。
其他文献
<正>华能九台电厂党委深刻认识到党建工作,做实就是生产力、做强就是战斗力、做细就是凝聚力。深化基层党组织建设质量,助力"提质增效、持续盈利"攻坚战,使党建工作和生产经
人工智能是作为新一轮科技革命和产业变革的重要驱动力,是引领未来的战略性技术,已正式上升为国家战略。而人工智能中一个非常重要分支就是自动推理,自动推理的大量工作都集中在定理机器证明中。定理机器证明是指使用计算机证明定理的成立,即把人证明定理的过程,通过一套符号体系加以形式化,变成一系列在计算机上自动实现的符号计算的过程[1],它是人工智能近代主攻的课题之一。Coq是一个基于归纳构造演算的交互式定理证
自动驾驶汽车是传感器、网络通信、导航定位、人工智能等多学科综合体,其中导航定位、路径规划、行为决策和车辆控制等是自动驾驶的关键技术。本文针对自动驾驶中的行为决策部分展开研究。随着AI技术的迅速发展,通过深度强化学习算法实现自动驾驶行为决策成为自动驾驶技术的研究热点之一。本文将在虚拟环境下面向自动驾驶进行基于深度强化学习算法的自动驾驶决策方法实践、改进和仿真验证。首先,介绍了强化学习是通过智能体在环
人工智能研究是当前科技发展的热点和前沿方向,夯实人工智能基础理论尤为重要,数学定理机器证明是人工智能基础理论研究的深刻体现。定理机器证明主要是指借助计算机技术实现数学定理的机器证明,从而在数学推理中实现脑力劳动的机械化。近年来随着计算机技术的发展,尤其一些定理证明辅助工具Coq、Isabella、HOL Light等的出现,数学定理机器证明的研究取得了长足的发展。对于数学理论的形式化来说,实现微积
土地整备作为存量发展时期的新生事物,其专项规划的编制尚处于探索阶段。深圳作为较早进入存量发展时期的快速城市化地区代表,至今已经编制完成三轮土地整备专项规划。本文基
人民政协是中国共产党把马克思列宁主义统一战线理论、政党理论、民主政治理论同中国实际相结合的伟大成果,是中国共产党领导各民主党派、无党派人士、人民团体和各族各界人
唐太宗于贞观元年正月颁布的《令有司劝勉庶人婚聘及时诏》是上承魏晋南北朝数百年丧乱和儒家礼教衰微的产物。考察此诏令颁布背后的深刻的历史背景、时代意义,阐述诏令实施
人工智能技术是国家目前重大科技发展战略之一,是计算机科学发展中非常重要的一个支系。随着现代社会计算机化、智能化程度的日渐提高,与计算机相关的各种系统故障往往会造成现代社会的巨大经济损失,更有甚者,会危及到人类的生命安全,因此夯实人工智能基础理论对现代智能化社会来说尤为重要。定理机器证明能够对计算机程序建立更为严格的正确性,从而奠定系统的高可信性,是人工智能基础理论的深刻体现。交互式定理证明工具Co
《水溶液中的离子平衡》包含了弱电解质的电离、盐类的水解以及难溶电解质的溶解平衡,并且是对“化学平衡”知识的拓展与深化,且本章涉及到的知识都与化学微粒观密切相关,内
为了在低输入功率下实现微波等离子灯的均匀激发,本文提出了一种在2.45GHz频率下工作的一种新型同轴缝隙耦合微波等离子无极灯激发装置的设计。该装置采用八字形缝隙结构,利