Q值函数相关论文
强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习......
针对以机场为代表的大型交通枢纽出租车调度困难的问题,从出租车司机利益的角度出发,提出一种基于改进深度强化学习的司机决策方法......