论文部分内容阅读
近年来,随着现代科学技术,特别是计算机技术、电子通信技术、控制技术的发展,移动机器人性能不断完善,并且在医疗卫生、国防军事、航天航空、机械制造、教育娱乐等领域得到了不同程度的应用。移动机器人在各应用中完成具体任务的前提是从出发点朝向任务目标点规划出一条有效路径,这使得路径规划技术一直是机器人学领域的研究热点。随着人工智能技术逐渐成熟,面向移动机器人路径规划的智能算法得到了广泛的研究。其中,强化学习理论无需预知环境模型,通过“试错”的方式与环境进行交互学习,为机器人理解环境信息提供了理论支持。本文针对传统强化学习算法解决移动机器人路径规划问题时收敛效率低、收敛精度不够、大状态空间不收敛、连续状态空间不适用等问题,主要进行了如下几个方面的研究工作:首先,提出基于DBQ算法的移动机器人路径规划方法。通过对环境信息的形式化描述定义环境模型,根据环境信息与动作规则构建基于BP神经网络的动作选择器BPAS。依据BPAS选择动作的方式改进Dyna-Q算法中的动作选择机制并结合随机策略避免机器人陷入死角区域。根据DBQ算法特点设计奖赏函数,界定收敛条件,通过仿真实验讨论算法在规划效果、收敛性、平均累积奖赏值、执行效率以及学习与规划问题等方面的有效性。其次,在DBQ路径规划算法的基础上,依据近似强化学习的思想提出基于RDBQ算法的路径规划方法。算法利用RBFNN构建值函数逼近器,用以拟合DBQ算法中的值函数表,使得算法适用于大状态空间与连续状态空间。同时,利用DBQ算法做全局路径规划的基础上提出基于RDBQ算法的分层规划策略,采用“离线”与“在线”学习相结合的方式,在机器人进行静态障碍物环境避障的过程中可对环境中的动态障碍物进行实时监测,从而实现机器人在动态环境下的路径规划过程。通过仿真实验观察RDBQ算法在较大状态空间下的规划效果、分析算法性能并验证分层策略在动态障碍物环境的有效性。最后,在真实环境下进行本文相应的验证实验与分析。采用Pioneer3-DX硬件平台,选用教学楼走廊的实验场景,分析本文所提算法在真实环境下路径规划的效果与运行效率,进一步证明算法的有效性与稳定性。