论文部分内容阅读
强化学习中报酬函数主要是根据经验人为设定的,难以保证最优性,学徒学习同样需要求取报酬函数。逆向强化学习通过学习演示轨迹或专家策略去构造潜在报酬函数,为报酬函数的自动构造提供了有效方法,避免了人为经验判断的主观性,因而逆向强化学习具有重要的研究意义。目前逆强化学习主要集中在折扣准则的马尔可夫决策过程中,平均准则下的逆强化学习尚没有得到普遍的关注,因而本文主要讨论平均准则下的逆向强化学习算法,解决报酬函数的自动构造问题。本文主要从两方面进行研究:一方面是在小状态空间环境下,基于灵敏度的思想,通过分析平均准则下的性能差公式,对其进行学习优化,得到了基于灵敏度的逆向强化学习算法。另一方面是在大状态空间或者报酬函数很难一一列举的环境下,通过特征基函数线性组合的方法描述报酬函数值,并结合最大边际思想、零和博弈思想、自然梯度思想,得到了平均准则下的三种逆向强化学习算法:最大边际、结合零和博弈思想、自然梯度三个逆向强化学习算法。本文采用方格迷宫和无人车仿真实验平台对四种算法进行仿真,主要通过三方面验证算法的有效性:所求策略和专家策略采取错误动作的状态数目、平均报酬值之差、自动构造的报酬函数值。同时分析了算法对专家策略和环境的依赖程度,并对以上算法的优越性进行分析和比较。