基于增强学习的移动机器人运动控制研究

被引量 : 0次 | 上传用户:cgrong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
增强学习(Reinforcement learning:RL)是近年来机器学习和人工智能领域研究的热点之一。与监督学习不同,增强学习强调在与环境的交互中进行学习,以极大化(或极小化)从环境获得的评价性反馈信号为学习目标,因此增强学习在求解无法获得教师信号的复杂优化决策问题中具有广泛的应用前景。作为移动机器人系统的一项关键技术,运动控制的目标是实现机器人位姿对期望轨迹或路径的快速精确跟踪。由于环境的复杂性以及动力学模型的不确定性,移动机器人运动控制器的优化设计仍然是目前研究的难点和热点之一。本文在研究探索面向连续空间优化决策问题的高效增强学习方法的基础上,研究了基于增强学习的移动机器人运动控制器优化设计方法。具体完成的主要工作包括:(1)对增强学习的近似策略迭代方法进行了分析研究。针对最小二乘策略迭代(Least-Squares Policy Iteration:LSPI)增强学习算法中的值函数逼近问题,提出了一种采用相关分析的线性基函数自动选择方法,实现了多项式基函数的自动选择,提高了值函数逼近器的逼近精度和泛化性能,从而改善了学习算法的性能。(2)提出了一种基于近似策略迭代的移动机器人路径跟随控制器设计方法。通过将机器人运动控制器的优化设计问题建模为Markov决策过程,采用近似策略迭代算法(包括LSPI和Kernel-based LSPI:KLSPI)实现控制器参数的自学习优化。其中,KLSPI算法在策略评价中应用核方法进行特征选择和值函数逼近,从而提高了泛化性能和学习效率。(3)在P3-AT型轮式移动机器人实验平台上进行了基于增强学习的路径跟随控制研究。将移动机器人实际采样数据作为学习样本,采用增强学习的近似策略迭代算法优化控制策略,从而实现了路径跟随控制器的优化设计,实验结果验证了本文方法的有效性。(4)将以上研究成果推广应用到多机器人编队控制问题中,设计了一种结合距离-角度(l-φ)反馈控制与增强学习的多机器人队形保持控制器。通过应用LSPI和KLSPI等近似策略迭代算法实现(l-φ)反馈控制中参数向量的学习优化,并在多机器人仿真与实验环境中对以上方法进行了测试。本文研究工作一方面对增强学习算法的基函数选择问题进行了探讨和改进,另一方面,有利于推进增强学习在移动机器人运动控制等不确定优化决策问题中的应用。
其他文献
本试验探讨了精卵共培养时间和卵泡液对牛体外受精效果的影响,以及卵泡液、精卵共培养时间、精卵共培养液量、颗粒细胞层数以及季节对羊体外受精效果的影响,进一步优化了牛羊
农杆菌介导法可以高效的将T-DNA插入棉花基因组中并能稳定遗传,在棉花的遗传转化中应用最为广泛。但农杆菌介导的棉花遗传转化必须以高效的棉花再生体系为基础,胚性愈伤组织
当今世界军事技术日新月异,随着电子侦察、干扰和反辐射武器技术的发展,雷达、声纳等有源探测系统受到越来越多的威胁。无源探测系统由于本身不辐射电磁波因而具有隐蔽性高、
身份认证是应用系统安全防护的基本要求,是系统安全的基础和核心。论文以甘肃省科技攻关项目——“公安业务系统的身份认证研究”为背景,研究网络应用系统的身份认证问题。论
笔者以中世纪哥特式教堂为例,通过对其建筑构造和彩色玻璃镶嵌画窗所蕴含的宗教意义和艺术表现形式的分析,阐述宗教与艺术这两种有着本质区别的"人类深邃情感"存在着相生与相
本文针对目前聚驱、三元复合驱的地层水高矿化度和富含腐蚀离子的流体对油井水泥石的严重腐蚀问题,开展了HCO3-和SO42-共同作用下油井水泥的腐蚀规律的研究,分析评价出HCO3-
2006年8月27日《中华人民共和国企业破产法》出台,标志我国在破产法上的重大进步。破产作为一种经济现象,是商品经济条件下市场竞争的必然产物,而作为破产制度,则是对这种社
横滨作为近代日本首批开港地之一,比其他城市先行一步而面向世界。西方文化随着欧美侨民的进入和横滨对外交流的开展而与日本传统文化产生了碰撞和交融。在这一过程中,横滨逐
进入21世纪,由于世界各国的恐怖活动日趋猖獗,装饰华丽、造价高昂的城市大型、标志性建筑往往会成为恐怖分子袭击的对象。因此,在建筑设计时,建筑物的抗爆炸性能也逐渐被列为
2008年1月下半月到2月上半月,贵州所遭遇的历史罕见的低温雨雪冰冻灾害,具有降温幅度大、持续时间长、影响范围广、冰冻灾害重等特点。文中分析了这次灾害的可能成因及其影响