【摘 要】
:
路径规划问题是一个非常经典的问题,在很多领域有广泛应用,通过深度强化学习技术来解决路径优化问题近年来吸引了大量学者关注,已成为路径规划问题的热点方向。具有强大感知能力以及决策能力的深度强化学习技术,既可以很好的感知环境场景,又可以高效的决策,在解决路径规划问题时有很强的鲁棒性以及通用性。当使用深度Q网络(Deep Q-Network,DQN)算法解决离散型的路径规划问题时,网络训练速度比较慢,训练
论文部分内容阅读
路径规划问题是一个非常经典的问题,在很多领域有广泛应用,通过深度强化学习技术来解决路径优化问题近年来吸引了大量学者关注,已成为路径规划问题的热点方向。具有强大感知能力以及决策能力的深度强化学习技术,既可以很好的感知环境场景,又可以高效的决策,在解决路径规划问题时有很强的鲁棒性以及通用性。当使用深度Q网络(Deep Q-Network,DQN)算法解决离散型的路径规划问题时,网络训练速度比较慢,训练时间比较长;并且当机器人只能获取局部环境信息时,DQN算法找到路径的成功率不高。当使用深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法解决连续型的路径优化问题时,网络的训练时间以及寻路时间都较长。针对以上问题,本文主要工作如下所示:(1)针对DQN算法在解决离散型路径规划问题时网络收敛慢,训练回合多的问题,提出基于概率的状态探索DQN算法。通过修改Q值的计算方式,使得某个状态出现的次数越多,该状态的出现的概率会降低,从而更好的探索新状态,提高网络训练效率。并在对比实验中,验证了该算法在提高网络收敛速度上的有效性;针对DQN算法在获取局部环境信息情况下解决离散型路径规划问题成功率低的问题,提出基于长短期记忆(Long Short Term Memory,LSTM)网络的DQN算法。通过在网络结构中加上一层LSTM网络,使神经网络可以处理状态、动作序列数据。并在对比实验中,验证了该算法可以极大的提高寻路的成功率。(2)针对DDPG算法在解决连续型路径规划问题时,预置奖励函数导致训练时间和寻路时间都比较长的问题,提出基于奖励塑造的DDPG算法。通过将奖励函数用卷积神经网络来模拟,动态优化奖励函数。并在对比实验中,验证了该算法可以有效减少网络训练时间以及寻路时间。(3)设计并实现了Unity环境中的智能寻路系统。使用Unity游戏引擎、C#编程语言、Python编程语言、Tensor Flow深度学习框架、机器学习智能体(Machine Learning Agent,ML_Agent)插件设计并实现Unity环境下的智能寻路系统。该系统主要包括客户端层、代理层、接口层、算法层四个功能模块,实现了在自定义的Unity迷宫场景中训练并找到终点。
其他文献
随着传统内燃机的高NOX和PM排放造成的环境污染日益加剧,天然气发动机的研发越来越受到重视。其中,柴油引燃天然气直喷发动机具有接近柴油机的动力性能,排放性能更是远优于常规柴油机,成为当前的研究热点。本文基于康明斯ISX天然气发动机,对发动机不同喷嘴结构(孔径、喷孔数等)与喷射策略开展模拟研究,分析燃烧与排放特性,提出柴油引燃天然气发动机的性能、排放优化策略。使用CFD软件CONVERGE建立柴油引
大自然中大量生物表面都表现出特殊的润湿性能,目前仿生制备的功能性表面已经被应用于自清洁、抗油抗污、防雾、抗结冰、液滴定向移动等领域。由于在金属表面制备超双疏功能性微纳结构能够使低表面能的液体(表面能小于水的表面能72.5m N m-1)难以附着在金属表面,从而显著提高其抗腐蚀性能。因此,该研究正在越来越受到科研人员的关注。凹角结构和低表面能物质都对制备超双疏金属表面具有重要作用。本研究详述了一种“
磁电复合材料在常温下具有磁电响应快,灵敏度高的特点。以磁电复合材料作为敏感元件的器件具有不需要额外电源为其供电,无需接入主电路的特点。作为磁电复合材料组成相的FeSiB非晶合金材料相比于超磁致伸缩材料需要的偏置磁场小,有着更高的磁致伸缩灵敏度。同时,它具有较高的磁导率,较好高频特性,可以制备成薄带状,满足器件小型化的要求。论文基于层叠复合材料的理论模型,使用等效电路法与基于本构方程直接推导方法研究
抗生素造成的废水污染已成为目前人类面临的水污染治理难题之一。构建绿色高效、可见光响应且光生载流子分离率高的光催化剂是利用光催化技术处理抗生素污染物的关键。本论文以无机半导体氯化氧铋(BiOCl)为基体光催化材料,利用具有大环共轭结构的卟啉或金属卟啉化合物对其进行复合修饰,考察了卟啉的引入对基体材料的可见光利用率和光生电子-空穴对分离率的影响,探究了制备得到的复合型光催化剂实现抗生素污染物高效去除的
包装机是我国制造业的重要组成部分,负责完成产品和商品的包装,随着设备智能化与自动化的发展,对包装机长期稳定连续运行的要求也越来越高。传动系统是包装机的核心,负责产生与传递设备所需要的动力,而滚动轴承作为传动系统中的关键部件,其运行状态会直接影响包装机的稳定性。目前,包装机的主要维护方法是事后维护与周期性维护,这两种维护方式难以避免设备因故障意外停机,且故障查找、设备维修耗时较长,影响包装生产,经济
转子发动机因具有结构简单、功重比高和易于整机小型化等优势而被广泛应用于汽车、无人机和发电等多个领域。但是,燃用汽油、柴油、航空煤油等传统燃料的转子发动机却因油耗大和排放超标等缺点严重制约了其快速发展。因此,在石油能源日渐枯竭和环境保护刻不容缓的大背景下,发展使用清洁高效的替代燃料的重要性对转子发动机而言是不言而喻的。天然气掺混氢气的混合燃料被认为是转子发动机未来最有前景的替代燃料之一。这是因为天然
土壤水分检测对农业精准灌溉,实现智慧农业具有重要意义,开展低成本高精度土壤水分传感器的研制,是目前现代智慧农业发展中一个迫切需要解决的瓶颈问题。土壤水分传感技术众多,随着高质量低成本高频振荡器的出现,电容式传感器由于具有电容探头相对便宜,可以有不同几何形状适应不同应用场合的需要,易于实现在线快速自动检测等特点,已经成为国内外学者研究关注的重点。但电容传感器仍存在检测探头结构不合理、信号处理不完善,
轮式联合收获机使用范围较广,但操作复杂程度较高,因此实现收获机的自主导航能够有效提高收获效率。目前收获机导航技术主要有差分定位技术、机器视觉与惯性导航等。随着收获机导航性能要求的提高,单一导航技术已无法满足收获机在田间的作业需求,例如视觉导航技术的实时性相对较低。本文在充分分析轮式联合收获机收获特性的基础上,融合机器视觉与惯性导航技术,研究轮式联合收获机低成本、高精度的导航方法,对提高收获效率、促
铜基复合材料在自润滑材料领域应用广泛,但日益严峻的工况条件对其减摩润滑性能提出了更大的挑战,而且由于磨损并不能完全避免,因此铜制零件仍然存在各种磨损失效问题。冷喷涂作为一种新兴的再制造技术,为铜制零件的逐层沉积修复提供了良好的解决方案。针对磨损失效铜制构件的再制造综合性能的要求,结合球磨法和冷喷涂工艺在TU1铜基材上制备了铜-氮化硼纳米片(Cu-BNNSs)复合涂层,对喷涂粉末和冷喷涂涂层进行了表
为减轻对石化柴油的过度依赖,以及解决传统柴油机氮氧化物(Nitrogen Oxides,NOx)和soot排放难以同时降低的问题,本文基于含氧燃料特性和新型燃烧模式协同控制的思想,深入研究了含氧燃料燃烧的化学反应机理及预混压燃(Premixed Charge Compression Ignition,PCCI)燃烧过程的特点和作用因素。本文基于课题组前期试验,采用预喷-预喷-主喷多段喷射策略耦合高