论文部分内容阅读
深度强化学习是机器学习领域中与自然界动物学习方式最为接近的一种学习范式,被许多学者认为是实现通用人工智能的最可行方法。其通过结合强化学习的决策能力与深度学习的感知能力,实现了从直接输入到输出的端对端学习方式,具有广阔的应用前景和重要的理论研究价值。在现阶段的研究中,存在着一些亟需解决的问题,其中重要的一点是深度强化学习的智能体必须在环境中进行探索,通过不断试错来累积经验,进而提升策略。该问题导致算法在探索成本很低的仿真环境下能够取得如AlphaGo在围棋上的瞩目成就,而在探索成本很高的真实环境下却鲜有产品落地的问题。针对深度强化学习在真实环境下做实物训练的时间成本过高及试验设备损耗问题,本文以直线一级倒立摆硬件试验平台及四旋翼无人机仿真试验环境为载体,对深度强化学习Soft actor-critic(SAC)算法在运动控制问题中的应用进行了研究。SAC算法是OpenAI团队提出的最新的无模型深度强化学习算法,具有鲁棒性强、超参数不敏感的优点。但目前SAC算法的应用研究还很少,因此具有很高的实际研究价值。本文的主要研究成果如下:(1)基于Python语言建立了四旋翼无人机仿真试验环境,在该环境下进行了基于深度强化学习SAC算法的四旋翼位姿控制试验。通过对比算法中不同奖励函数设计及超参数设置,总结了深度强化学习算法的使用经验,并展示了试验过程中遇到的一些难题及解决方案,为使用深度强化学习解决运动控制问题提供了参考。(2)搭建了基于PLC的直线一级倒立摆硬件试验平台,并基于Python语言建立了模拟该试验平台的仿真训练环境,使用SAC算法在仿真环境下进行了倒立摆起摆及稳摆控制训练,并将训练结果应用于倒立摆硬件试验平台,取得了良好的起摆及稳摆控制效果,为深度强化学习在实际工程中的应用提供了思路。