基于Q-Learning算法的智能信号灯系统

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:klzvms1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着经济的飞速发展,科技的进步,汽车已经进入了千家万户,为人们的出行带来了极大的方便。但随之而来的是一系列不可避免的环境和社会问题。例如,噪声污染、汽车尾气造成的环境污染、交通拥堵等。特别是交通拥堵,随着汽车数量的快速增长已经是一个不可避免的问题。为了解决交通拥堵的问题,研究者们将人工智能引入交通控制系统中,通过智能算法来优化交通资源的分配。在交通控制系统中,信号灯控制系统是最重要的一项。在现阶段,投入实际应用的信号灯控制系统中,固定时长的信号灯控制策略仍旧占据主导地位。而在多变的交通模式下,固定时长的信号灯策略已经不能合理地分配交通资源,造成了交通资源的浪费。本文中提出了一种基于Q-Learning算法的智能信号灯系统。在此系统中,参照蚁群算法,引入了数字信息素,将其作为车道上交通信息的载体。假设车辆在车道上留下数字信息素,系统根据车道上数字信息素的量来制定下周期的红绿灯时长策略。由于信息素会在车道上保留下来,信息素不仅可以保留下实时的交通信息,而且会保存历史的交通信息。故在分配下一周期的红绿灯时长时,不仅考虑到了实时的交通信息,而且会受到历史交通信息的影响。系统可以利用数字信息素的蒸发特性来控制历史交通信息对下周期红绿灯时长的影响。故引入Q-Learning算法根据实时的交通环境动态地改变信息素蒸发率以减轻交通拥堵。在文中,首先定义了Q-Learning算法的状态空间、行为空间、奖励值函数,其中状态空间为相对队列长度,不仅考虑了车道上拥堵的车辆数量,而且考虑到了车道的长度、车辆的长度;行为空间为信息素的蒸发率,并定义了两个奖励值函数,分别为队列长度和等待时长。然后,分析了在不同的交通需求模式下,数字信息素的蒸发率(Evaporation Rate)和获取信息素的车道长度(Cell Size)对智能信号灯系统性能的影响。最后,通过仿真实验对比研究了基于Q-Learning算法的智能信号灯系统和固定时长的信号灯控制策略的性能,并对比分析了两种奖励值函数对系统性能的影响。结果表明,两种奖励值函数下的基于Q-Learning算法的智能信号灯系统性能均优于固定时长的信号灯系统,而奖励值函数为队列长度的系统对减小路口拥堵的队列长度有更好的效果,奖励值函数为等待时长的系统对减少车辆在路口的等待时长有更好的效果。
其他文献
While the threat of war has decreased, there have appeared intricate security issues that affect all aspects of human life, breaking through various defenses an
<正> 中国地质学会矿床地质专业委员会贵金属地质专业组,在总结和概括世界金矿的成矿地质条件、分布规律的基础上,并结合我国金矿地质实际,提出了中国金矿床成因类型划分方案
本文针对种质资源学课程内容多、系统性强的特点。通过设计课程教学方案,组织实施结合教学效果评估、反馈三个步骤在种质资源学教学中应用了案例式教学法。通过实施案例式教学
两年半前北京翔博科技有限公司刚成立时,只有寥寥10个人,但他们有一个远大的理想,就是要把全世界机械制造业使用的高耗能、高污染的消除应力的热时效炉替换掉,为企业创造效益,为社会创造效益。    “振动消除应力是机械制造工业里一个基础性工艺,它的目的是去除金属产品内的残余应力,提高工件的尺寸精度稳定性。”中国机械工程学会消除应力技术委员会秘书长张勇向《商务周刊》介绍,“金属加工过程中,必不可少的会产生
<正>5S管理起源于上世纪80年代初期,由Takashi Osada引入日本企业的管理方法,是一种针对企业的精益管理模式,包括整理(Seiri)、整顿(Seiton)、清扫(Seiso)、清洁(Seiketsu)、素养(Shit