论文部分内容阅读
城市交通贯穿于城市公共空间的各个区域,经过长期发展,已经形成较为完善的格局,提高了居民的出行效率。但随着经济的发展和城市化进程的加快,城市人口及人均汽车保有量快速增长,交通拥堵问题日趋严重,交通不畅、运输效率低下、环境污染等问题日益严峻,严重影响了城市的可持续发展。交通信号灯的自适应控制能够有效地缓解交通拥堵问题,但以往的交通信号灯控制方法通常根据车辆排队长度、交通流量、车道占有比等传统的交通参数对信号灯配时方案进行优化,没有充分利用交叉口的状态信息;或仅考虑单个交叉口信号灯的优化,没有与其它交叉口信号灯协同以达到区域路网上的最优控制。为了解决上述问题,本文对基于深度强化学习的信号灯自适应决策进行了研究,所做的主要工作如下:(1)本文提出一种带有Q值迁移的协同深度Q学习算法。将多交叉口信号灯的控制建模为多Agent系统,每个Agent通过一个深度Q网络来寻找交叉口的最优策略,为充分利用交叉口的状态信息,将进入交叉口车辆的位置和速度信息的离散编码作为网络的输入;为协同多个交叉口的信号灯,各Agent的网络在训练的过程中考虑相邻交叉口最近的动作的影响,将相邻Agent最近时刻的最优Q值迁移到当前交叉口网络的损失函数中。该方法不仅可以对区域道路网络的信号灯进行协同控制,还可以扩展到更多交叉口而不会造成维度灾难,且可以对异构的多交叉口进行协同控制。通过在不同路网结构上进行多种车密度实验,验证了所提算法的有效性、适应性和可扩展性。(2)本文提出一种基于多任务深度Q网络的Q值迁移协同控制方法。区域路网上各交叉口的车流情况通常不同,因此可将路网上的各交叉口的控制视为不同的任务,每个交叉口的控制对应一个任务,多个任务之间存在相似性,通过共享相似任务的表征可以使模型拥有更好的特征提取能力、决策能力和泛化能力。首先为每个交叉口训练一个专家DQN网络;然后在多个专家网络的指导下训练一个多任务DQN网络,使得多任务网络能够同时学习如何在多个任务中工作,然后在没有专家指导的情况下把学到的知识推广到新的任务(不同交通流密度的交叉口);最后采用迁移学习技术,将多任务网络迁移到每个交叉口上,再采用基于Q值迁移的协同算法来协同控制多交叉口的信号灯。实验结果证明了本方法的有效性。并对有多任务学习和无多任务学习进行比较,证明多任务学习在本文方法中确实对性能有很大提升。