增强学习的理论和在路径规划问题中的应用

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:qt393761474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文先介绍了增强学习的基本理论和经典算法,在经典方法中,价值函数用和状态一一对应的查找表方式表示的,随着状态的增多,将陷入维数灾问题,因此,接下来对经典算法中计算价值函数的方法加以改进,不再精确表示,而改用梯度下降等监督学习的方法来对价值函数进行函数逼近,这样可以极大地扩展增强学习的适用范围文中给出了几种梯度下降方法,并对它们的收敛性进行了比较.另外,针对基于价值函数的学习方法的固有弱点:对价值函数的估计出现的小偏差可能导致最终结果的大偏差,又给出了直接增强学习方法,即根据从策略到反馈的不通过价值函数直接映射,使用梯度上升的方法,对策略空间进行直接搜索.这也可以看成非经典的增强学习方法.该文还进行了一些增强学习方法在agent路径规划问题上的实验研究,包括单agent系统和多agent系统,在这些实验里,我们综合使用了多种增强学习方法和技巧.从实验中可以看出,通过试错法,agent不但可以适应即使是动态的环境找到最优路径,而且还会逐渐形成合作、竞争等关系;另一方面,恰当地综合运用多种学习方法,将会使得学习效率大大提高.
其他文献
智能交通系统(Intelligent Transportation System,简称ITS)是目前公认的全面有效地解决交通运输领域问题,特别是交通拥挤、交通阻塞、交通事故和交通污染等的最佳途径。车辆导航
人工智能领域的合作分布式问题求解(CDPS,Cooperative Distributed Problem Solving)具有巨大的潜力,但是也面临极大的挑战.从玩偶问题、机器人搬运问题,到今天的诸如飞行交
汽车底盘异物检测是采用多个线阵摄像机从不同角度拍摄汽车底盘图像,再经过多摄像机标定,特征点匹配和三维重建这几个方面,最后进行异物识别处理。计算汽车底盘摄像机图像坐标系
随着各种新的应用出现,数字系统的集成度不断攀升,为满足这些数字系统的故障检测需求,出现了许多智能故障检测和诊断的方法,然而在将这些方法应用到实际的故障诊断系统中后,遇到了
传统电涡流传感器的敏感探头由金属线圈绕制而成,虽然随制备工艺的发展已趋于柔软纤薄,但仍具有一定刚性,并且只适用于被测目标物是金属导体的场合。因此迫切需求一种柔软、
随着广义系统应用领域的不断扩大,对广义系统理论的研究也在逐步深入.人们的研究不只局限于定常系统,越来越多的人将更多的精力投入到广义时变系统理论的研究中.该文针对目前
该文针对欠驱动机构的非线性、强耦合、多变量和自不稳定的特点,在预测控制理论的基础上提出了基于专家系统的变步长一步预测控制方法,并将其应用于二级倒立摆系统及三级倒立
炼钢-连铸-热轧工序是钢铁生产过程中的三大核心工序,同时也是能源消耗较大的三个工序。炼钢-连铸工序将铁水废钢等炼钢原材料加工成板坯,热轧工序将板坯轧制成热轧卷。炼钢-
该论文基于当前生物学模型,特别是恒化器模型的研究现状,深入系统的研究了时滞和扩散方程描述的几类恒化器系统的渐近性态,该文的主要内容包括以下几个方面:一、研究了具有Be