论文部分内容阅读
分层强化学习方法可用于解决维数灾难问题,MAXQ方法通过分层地分解值函效,将任务分解为不同层次上的子任务,从而只需在低维空间中解决问题。针对MAXQ方法。首先介绍其基本原理,然后介绍MAXQ方法在出租车问题中的应用,包括任务分解以及类的设计,最后用实验验证了MAXQ方法比Q-学习算法收敛快。