基于深度强化学习的信号灯自适应决策

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:fang19902009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
城市交通贯穿于城市公共空间的各个区域,经过长期发展,已经形成较为完善的格局,提高了居民的出行效率。但随着经济的发展和城市化进程的加快,城市人口及人均汽车保有量快速增长,交通拥堵问题日趋严重,交通不畅、运输效率低下、环境污染等问题日益严峻,严重影响了城市的可持续发展。交通信号灯的自适应控制能够有效地缓解交通拥堵问题,但以往的交通信号灯控制方法通常根据车辆排队长度、交通流量、车道占有比等传统的交通参数对信号灯配时方案进行优化,没有充分利用交叉口的状态信息;或仅考虑单个交叉口信号灯的优化,没有与其它交叉口信号灯协同以达到区域路网上的最优控制。为了解决上述问题,本文对基于深度强化学习的信号灯自适应决策进行了研究,所做的主要工作如下:(1)本文提出一种带有Q值迁移的协同深度Q学习算法。将多交叉口信号灯的控制建模为多Agent系统,每个Agent通过一个深度Q网络来寻找交叉口的最优策略,为充分利用交叉口的状态信息,将进入交叉口车辆的位置和速度信息的离散编码作为网络的输入;为协同多个交叉口的信号灯,各Agent的网络在训练的过程中考虑相邻交叉口最近的动作的影响,将相邻Agent最近时刻的最优Q值迁移到当前交叉口网络的损失函数中。该方法不仅可以对区域道路网络的信号灯进行协同控制,还可以扩展到更多交叉口而不会造成维度灾难,且可以对异构的多交叉口进行协同控制。通过在不同路网结构上进行多种车密度实验,验证了所提算法的有效性、适应性和可扩展性。(2)本文提出一种基于多任务深度Q网络的Q值迁移协同控制方法。区域路网上各交叉口的车流情况通常不同,因此可将路网上的各交叉口的控制视为不同的任务,每个交叉口的控制对应一个任务,多个任务之间存在相似性,通过共享相似任务的表征可以使模型拥有更好的特征提取能力、决策能力和泛化能力。首先为每个交叉口训练一个专家DQN网络;然后在多个专家网络的指导下训练一个多任务DQN网络,使得多任务网络能够同时学习如何在多个任务中工作,然后在没有专家指导的情况下把学到的知识推广到新的任务(不同交通流密度的交叉口);最后采用迁移学习技术,将多任务网络迁移到每个交叉口上,再采用基于Q值迁移的协同算法来协同控制多交叉口的信号灯。实验结果证明了本方法的有效性。并对有多任务学习和无多任务学习进行比较,证明多任务学习在本文方法中确实对性能有很大提升。
其他文献
2018年,世界经济贸易格局深刻调整,贸易保护主义和单边主义抬头,经济全球化遭遇波折,多边主义和自由贸易体制受到冲击,世界经济总体呈现增长动能趋缓、区域分化明显、下行风
研究生教育是我国高等教育的重要组成部分,研究生创新能力的培养受到极大的关注,根据黑龙江八一农垦大学工程学院研究生培养过程中的具体做法,分析和探索了提高研究生创新能
中国的改革开放20多年,富豪的崛起,是近十多年前的事情,早在1995年,《福布斯》在中国首次推出大陆龙虎榜17人——严格意义上的第一张首富排行榜,接下来,无论是胡润百富榜,还是《新财富》华人富豪榜和《财富》排行榜,其相同点是财富数额的升级速度不断加快,入榜的门槛也日益提高,以《福布斯》为例,1999年排出50名富豪,第50名仅拥有5000万人民币,2000年第50名是4亿人民币,2001年第100
目的:功能性便秘是消化系统疾病中的多发病,且发病率有着逐渐上升的趋势,西医治疗上主要以渗透性泻剂为主,辅以促进胃肠动力药物,虽然见效较快,但存在容易复发的问题,中医在治疗有着因人制宜的优势,且目前中药颗粒剂有效的解决了煎药问题,但由于中药口味差及服药周期长,导致患者依从性较差。从师期间,发现导师自拟方对于治疗功能性便秘周期较短,且患者反映药物口味较好的特点,故通过研究,采用导师自拟方枳术肃降汤治疗
摘要:如何开设具有职业教育特色的通识教育课程,已受到越来越多高等学校的重视。本文通过课程改革,将标准化这一工程技术通用语言,建设成为高职院校各专业的通识教育课程。文章详述了标准化通识课程的建设意义、建设目标和内容、建设思路及方法、建设特色。  关键词:高职;通识教育;课程;标准化  中图分类号:G712 文献标志码:A 文章编号:1674-9324(2018)11-0261-02  通识教育是以人