论文部分内容阅读
随着经济的飞速发展,科技的进步,汽车已经进入了千家万户,为人们的出行带来了极大的方便。但随之而来的是一系列不可避免的环境和社会问题。例如,噪声污染、汽车尾气造成的环境污染、交通拥堵等。特别是交通拥堵,随着汽车数量的快速增长已经是一个不可避免的问题。为了解决交通拥堵的问题,研究者们将人工智能引入交通控制系统中,通过智能算法来优化交通资源的分配。在交通控制系统中,信号灯控制系统是最重要的一项。在现阶段,投入实际应用的信号灯控制系统中,固定时长的信号灯控制策略仍旧占据主导地位。而在多变的交通模式下,固定时长的信号灯策略已经不能合理地分配交通资源,造成了交通资源的浪费。本文中提出了一种基于Q-Learning算法的智能信号灯系统。在此系统中,参照蚁群算法,引入了数字信息素,将其作为车道上交通信息的载体。假设车辆在车道上留下数字信息素,系统根据车道上数字信息素的量来制定下周期的红绿灯时长策略。由于信息素会在车道上保留下来,信息素不仅可以保留下实时的交通信息,而且会保存历史的交通信息。故在分配下一周期的红绿灯时长时,不仅考虑到了实时的交通信息,而且会受到历史交通信息的影响。系统可以利用数字信息素的蒸发特性来控制历史交通信息对下周期红绿灯时长的影响。故引入Q-Learning算法根据实时的交通环境动态地改变信息素蒸发率以减轻交通拥堵。在文中,首先定义了Q-Learning算法的状态空间、行为空间、奖励值函数,其中状态空间为相对队列长度,不仅考虑了车道上拥堵的车辆数量,而且考虑到了车道的长度、车辆的长度;行为空间为信息素的蒸发率,并定义了两个奖励值函数,分别为队列长度和等待时长。然后,分析了在不同的交通需求模式下,数字信息素的蒸发率(Evaporation Rate)和获取信息素的车道长度(Cell Size)对智能信号灯系统性能的影响。最后,通过仿真实验对比研究了基于Q-Learning算法的智能信号灯系统和固定时长的信号灯控制策略的性能,并对比分析了两种奖励值函数对系统性能的影响。结果表明,两种奖励值函数下的基于Q-Learning算法的智能信号灯系统性能均优于固定时长的信号灯系统,而奖励值函数为队列长度的系统对减小路口拥堵的队列长度有更好的效果,奖励值函数为等待时长的系统对减少车辆在路口的等待时长有更好的效果。