基于深度强化学习的信号灯自适应决策

来源 :大连理工大学 | 被引量 : 4次 | 上传用户：fang19902009

【摘要】

：

【作者】

：

宋玉美

【出处】

：

大连理工大学

【发表日期】

：

2019年01期

【关键词】

：

深度强化学习多交叉口信号灯控制 Q值迁移多任务学习协同

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

城市交通贯穿于城市公共空间的各个区域,经过长期发展,已经形成较为完善的格局,提高了居民的出行效率。但随着经济的发展和城市化进程的加快,城市人口及人均汽车保有量快速增长,交通拥堵问题日趋严重,交通不畅、运输效率低下、环境污染等问题日益严峻,严重影响了城市的可持续发展。交通信号灯的自适应控制能够有效地缓解交通拥堵问题,但以往的交通信号灯控制方法通常根据车辆排队长度、交通流量、车道占有比等传统的交通参数对信号灯配时方案进行优化,没有充分利用交叉口的状态信息;或仅考虑单个交叉口信号灯的优化,没有与其它交叉口信号灯协同以达到区域路网上的最优控制。为了解决上述问题,本文对基于深度强化学习的信号灯自适应决策进行了研究,所做的主要工作如下:(1)本文提出一种带有Q值迁移的协同深度Q学习算法。将多交叉口信号灯的控制建模为多Agent系统,每个Agent通过一个深度Q网络来寻找交叉口的最优策略,为充分利用交叉口的状态信息,将进入交叉口车辆的位置和速度信息的离散编码作为网络的输入;为协同多个交叉口的信号灯,各Agent的网络在训练的过程中考虑相邻交叉口最近的动作的影响,将相邻Agent最近时刻的最优Q值迁移到当前交叉口网络的损失函数中。该方法不仅可以对区域道路网络的信号灯进行协同控制,还可以扩展到更多交叉口而不会造成维度灾难,且可以对异构的多交叉口进行协同控制。通过在不同路网结构上进行多种车密度实验,验证了所提算法的有效性、适应性和可扩展性。(2)本文提出一种基于多任务深度Q网络的Q值迁移协同控制方法。区域路网上各交叉口的车流情况通常不同,因此可将路网上的各交叉口的控制视为不同的任务,每个交叉口的控制对应一个任务,多个任务之间存在相似性,通过共享相似任务的表征可以使模型拥有更好的特征提取能力、决策能力和泛化能力。首先为每个交叉口训练一个专家DQN网络;然后在多个专家网络的指导下训练一个多任务DQN网络,使得多任务网络能够同时学习如何在多个任务中工作,然后在没有专家指导的情况下把学到的知识推广到新的任务(不同交通流密度的交叉口);最后采用迁移学习技术,将多任务网络迁移到每个交叉口上,再采用基于Q值迁移的协同算法来协同控制多交叉口的信号灯。实验结果证明了本方法的有效性。并对有多任务学习和无多任务学习进行比较,证明多任务学习在本文方法中确实对性能有很大提升。

其他文献

我国长三角地区港口经济发展2018年回顾及2019年展望

2018年,世界经济贸易格局深刻调整,贸易保护主义和单边主义抬头,经济全球化遭遇波折,多边主义和自由贸易体制受到冲击,世界经济总体呈现增长动能趋缓、区域分化明显、下行风

期刊

长三角地区经济发展展望港口贸易保护主义世界经济经济全球化经济贸易

农业院校硕士研究生创新能力培养探索

研究生教育是我国高等教育的重要组成部分,研究生创新能力的培养受到极大的关注,根据黑龙江八一农垦大学工程学院研究生培养过程中的具体做法,分析和探索了提高研究生创新能

期刊

研究生培养创新能力创新平台postgraduates cultivationinnovation capabilityinnovative platfor

华人首富的财富真相

中国的改革开放20多年，富豪的崛起，是近十多年前的事情，早在1995年，《福布斯》在中国首次推出大陆龙虎榜17人——严格意义上的第一张首富排行榜，接下来，无论是胡润百富榜，还是《新财富》华人富豪榜和《财富》排行榜，其相同点是财富数额的升级速度不断加快，入榜的门槛也日益提高，以《福布斯》为例，1999年排出50名富豪，第50名仅拥有5000万人民币，2000年第50名是4亿人民币，2001年第100

期刊

《华人首富》华人首富故事中国改革开放新书介绍

吉化甲基香兰素生产创历史最好水平

期刊

吉化集团公司甲基香兰素生产能力产品质量

枳术肃降汤治疗脾气虚型功能性便秘疗效的临床观察

目的:功能性便秘是消化系统疾病中的多发病,且发病率有着逐渐上升的趋势,西医治疗上主要以渗透性泻剂为主,辅以促进胃肠动力药物,虽然见效较快,但存在容易复发的问题,中医在治疗有着因人制宜的优势,且目前中药颗粒剂有效的解决了煎药问题,但由于中药口味差及服药周期长,导致患者依从性较差。从师期间,发现导师自拟方对于治疗功能性便秘周期较短,且患者反映药物口味较好的特点,故通过研究,采用导师自拟方枳术肃降汤治疗

学位

脾气虚型便秘功能性便秘枳术肃降汤临床疗效

高等职业教育标准化通识课程建设探讨

摘要：如何开设具有职业教育特色的通识教育课程，已受到越来越多高等学校的重视。本文通过课程改革，将标准化这一工程技术通用语言，建设成为高职院校各专业的通识教育课程。文章详述了标准化通识课程的建设意义、建设目标和内容、建设思路及方法、建设特色。　　关键词：高职；通识教育；课程；标准化　　中图分类号：G712 文献标志码：A 文章编号：1674-9324（2018）11-0261-02　　通识教育是以人

期刊

高职通识教育课程标准化higher vocation educationgeneral educationcurriculumstandardizati

基于深度强化学习的信号灯自适应决策

其他学术论文