【摘 要】
:
针对应用传统强化学习进行城市自适应交通信号配时决策时存在维数灾难和缺乏协调机制等问题,提出引入交互协调机制的强化学习算法。以车均延误为性能指标设计了针对城市交通
【基金项目】
:
广东省自然科学基金(No.2016A030310104);广东省科技计划项目(No.2015B010129017)
论文部分内容阅读
针对应用传统强化学习进行城市自适应交通信号配时决策时存在维数灾难和缺乏协调机制等问题,提出引入交互协调机制的强化学习算法。以车均延误为性能指标设计了针对城市交通信号配时决策的独立Q-强化学习算法。在此基础上,通过引入直接交互机制对独立强化学习算法进行了延伸,即相邻交叉口交通信号控制agent间直接交换配时动作和交互点值。通过仿真实验分析表明,引入交互协调机制的强化学习的控制效果明显优于独立强化学习算法,协调更有效,并且其学习算法具有较好的收敛性能,交互点值趋向稳定。
其他文献
石墨炸弹是近年来发展起来的一种对供电系统有强大破坏作用的武器。对石墨炸弹发展过程、破坏机理及主要特征进行了总结,并从破坏(降低)石墨纤维导电性的思路出发,提出了具体
目的:已有的研究表明青少年的情绪调节和心理困扰之间显著相关,但是同时探究影响青少年情绪调节和心理困扰的内在因素和外在因素的研究相对较少。本研究考察了青少年内在的正
民主选举制度并不必然带来村庄选举的强竞争。实地调研发现,村庄选举的弱竞争构成了中国绝大部分村庄选举的主导样态。城市化背景下,村庄的去精英化、村庄社会结构的碎片化、
<正>1.绪论1.1网络大电影的概念网络大电影即是指1小时以上,拥有完整电影结构以及容量、能符合国家相应的政策法规制度、通过在互联网平台上进行传播的视频等产品,一些人称之
为促进安全文化建设,提升全民安全文化素质,根据"互联网+"的含义,从安全文化建设视角提出"互联网+安全文化"的定义。根据信息传播的"六度传播"理论,构建六度安全文化传播模型
本文认为国际商务合同是一种具有法律效力的文件,属于特殊文本,准确性和严谨性是其行文基本风格,本文从词语使用的角度诸如专业词、古体词、shall的使用等探讨了国际商务合同