基于强化学习的双足周期步行控制研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:lp999999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双足机器人形态拟人,可在非结构化的复杂环境中行走,且无需为其改造人类工作和生活的环境,得到了研究者的广泛重视。周期步行是双足运动的基本形态,反映了生物的节律运动。目前提高双足机器人周期步行对环境适应能力的步行控制算法,多基于机器人数学模型;将地面视为刚性地面而忽略地面材质对步行的影响;缺乏动态学习能力,这些不足限制了双足机器人的实际应用与发展。强化学习可描述智能体通过与环境不断交互而进行学习的过程,可实现无模型的控制器设计,适用于不同的工作环境,体现了生物动态学习的特点。本文针对双足机器人周期步行问题,提出了基于强化学习的步行控制方法,可实现仿人、稳定和具有适应性的双足周期步态。主要研究内容为:首先,提出提高被动步行环境适应性的平面周期步行控制器。在刚性地面假设下,建立双足步行的混杂动力学方程,作为模拟机器人行走的训练环境;基于胞映射法进行被动步行初始值求解,得到了被动步行的周期步态,并进行了步态的稳定性分析;基于深度Q网络设计平面周期步行控制器。研究结果表明:在强化学习试错的过程中,将稳定的被动步行步态作为训练的参考轨迹,既保持被动步行步态自然的优点,又可有效降低训练次数,训练仅需50个回合;通过强化学习不断试错累积经验后,周期步行控制器可实现平面型双足机器人在初始位置与速度扰动、平地、不同坡度与变坡度环境下的成功行走,如在初始位置与速度扰动的情况下,经调整步态后,最终可实现稳定速度为0.7363m/s的平面周期步行。其次,提出柔性地面上的双足机器人平面周期步行控制器。在柔性地面假设下,建立双足步行的机器人-地面耦合动力学方程,作为双足机器人的模拟行走环境,较刚性地面假设更能符合实际环境情况;得到了柔性地面上被动步行的周期步态,并分析了地面柔性参数与髋关节刚度系数对步态的影响,说明可通过调节本体髋关节刚度系数以适应地面柔性变化;基于强化学习设计平面周期步行控制器,通过控制柔性机器人髋关节刚度系数,可提高柔性地面上被动步行的环境适应性。研究表明:采用被动步行步态作为强化学习的参考轨迹,使训练中所需回合数较少,如经过35个回合即可收敛;将经过训练后的强化学习网络作为步行控制器,可实现平面双足机器人在初始位置与速度扰动、平地、不同柔性地面与变柔性环境中的周期行走,如在平地柔性地面上,可实现稳定速度为0.6845m/s的平面周期步行。最后,提出提高多关节机器人节律步态适应性的三维周期步行控制器。针对多关节双足机器人NAO的三维步行任务,借鉴生物的主动节律运动,设计基于强化学习的周期步行控制器,实现在复杂环境下的受控行走。基于中枢模式发生器进行双足机器人行走的步态规划,通过基准振荡器产生节律信号,通过中枢模式发生器网络将节律信号映射到双足机器人的关节空间,采用粒子群优化算法进行参数整定,实现平地直线步行作为基准步态;基于强化学习设计反馈控制器,借鉴生物反射机制,通过强化学习完成无模型的反馈通路设计。研究结果表明:经过训练后的强化学习网络作为三维周期步行控制器,在仿真平台V-REP与物理样机中,可成功实现平地、上坡等环境下的三维周期步行。本文提出的方法,借鉴生物体步行特征与学习过程,提高双足机器人学习行走的能力;通过强化学习的泛化能力,可实现对复杂、变化环境的适应性,有助于扩展双足机器人的应用场景。
其他文献
我最初的工作,是在家乡的小学任教。我教的班级有两个学习成绩特别优异的男生,一个瘦高,五官精致,长得很像当年歌坛小虎队的“霹雳虎”吴奇隆。这孩子性格腼腆,学习很用功,成
国家工业化是每一个发展中国家在制定本国发展战略时首先予以确立的目标,因为没有国家的工业化就没有国家的发展。一个以农业文明为主体的国家在世界事务中是没有发言权的。但
摘要:本文简要介绍了我国矿业权市场的发端、现状及存在的问题,并试图从以煤炭为试点的资源有偿使用制度改革出发,探索矿业权市场的发展趋势,并提供一些市场化建议,以促进我国矿业权市场健康、稳定的发展。  关键词:矿业权 市场 产权 煤炭    一、我国矿业权市场的发端    所谓矿产资源,是指由地质作用形成的,具有利用价值的,呈固态、液态、气态富集于地表或地壳中的矿物聚集体。从用途、物理、化学性质