平均报酬准则下的逆向强化学习算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qxff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习中报酬函数主要是根据经验人为设定的,难以保证最优性,学徒学习同样需要求取报酬函数。逆向强化学习通过学习演示轨迹或专家策略去构造潜在报酬函数,为报酬函数的自动构造提供了有效方法,避免了人为经验判断的主观性,因而逆向强化学习具有重要的研究意义。目前逆强化学习主要集中在折扣准则的马尔可夫决策过程中,平均准则下的逆强化学习尚没有得到普遍的关注,因而本文主要讨论平均准则下的逆向强化学习算法,解决报酬函数的自动构造问题。本文主要从两方面进行研究:一方面是在小状态空间环境下,基于灵敏度的思想,通过分析平均准则下的性能差公式,对其进行学习优化,得到了基于灵敏度的逆向强化学习算法。另一方面是在大状态空间或者报酬函数很难一一列举的环境下,通过特征基函数线性组合的方法描述报酬函数值,并结合最大边际思想、零和博弈思想、自然梯度思想,得到了平均准则下的三种逆向强化学习算法:最大边际、结合零和博弈思想、自然梯度三个逆向强化学习算法。本文采用方格迷宫和无人车仿真实验平台对四种算法进行仿真,主要通过三方面验证算法的有效性:所求策略和专家策略采取错误动作的状态数目、平均报酬值之差、自动构造的报酬函数值。同时分析了算法对专家策略和环境的依赖程度,并对以上算法的优越性进行分析和比较。
其他文献
新生儿缺氧缺血性脑病是新生儿期发病率较高、又可导致死亡或致残的重要疾病.通过56例新生儿缺氧缺血性脑病患儿的脑电图观察发现,它从脑功能方面对于病情的估计以及预后的判
刻意曲解在日常交流和文学作品中经常出现。听话人在完全理解说话人话语的前提下,故意歪曲说话人话语,以达到特定的交际目的或者语言效果,此时刻意曲解就产生了。本研究在关联理
无线传感器网络是由各项高新技术支撑起来的一种功能强大且齐全的新型网络。节点定位技术作为其基础领域,引起了研究人员的高度重视。近年,相关研究者对定位技术做了大量的研究
我院于1998年6月始开展经尿道前列腺电气化术(TVP)治疗良性前列腺增生症(BPH),共治疗693例,疗效满意,但仍有部分病例因并发症需再次入院治疗.收集我院TVP术后因并发症再入院