动态环境下数据驱动Q-学习算法

来源 :西南交通大学学报 | 被引量 : 0次 | 上传用户:any_ray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对动态环境下强化学习对未知动作的探索和已知最优动作的利用之间难以平衡的问题,提出了一种数据驱动Q-学习算法.该算法首先构建智能体的行为信息系统,通过行为信息系统知识的不确定性建立环境触发机制;依据跟踪环境变化的动态信息,触发机制自适应控制对新环境的探索,使算法对未知动作的探索和已知最优动作的利用达到平衡.用于动态环境下迷宫导航问题的仿真结果表明,该算法达到目标的平均步长比Q-学习算法、模拟退火Q-学习算法和基于探测刷新Q-学习算法缩短了7.79%~84.7%.
其他文献
为研究机场航站楼旅客的离港流程,提高机场的运行效率,减少延误并提高服务质量,根据对上海虹桥机场航站楼旅客离港流程的调查和旅客行为分析,用ServiceModel软件开发了该机场
为了获得开关DC—DC变换器的最优数字谷值电流(DVC)控制技术,研究了电感电流连续模式下DVC控制开关DC—DC变换器的工作原理,对比分析了采用前缘、后缘、三角前缘和三角后缘4种调
为解决大跨度斜拉桥施工过程中观测噪声对结构参数识别的影响,以苏通大桥为工程背景,提出了基于灰色-神经网络的施工全过程参数识别方法.灰色系统理论与人工神经网络相融合,在小
以秦沈客运专线轨道梁为原型,设计了3根1:5大尺度T型预应力混凝土模型梁,进行了为期3a的徐变性能试验,重点考察了混凝土种类和预应力筋张拉方式对轨道梁徐变变形的影响.编制了基于
为探讨拉索局部振动对斜拉桥抗震性能的影响,考虑垂度效应和初始静平衡状态,导出了某大跨度斜拉桥拉索一阶自振频率的解析解,并求得该桥斜拉索自振频率的多段拉索模型有限元解.通