基于强化学习的仿人智能控制器参数在线学习与优化

来源 :重庆大学 | 被引量 : 0次 | 上传用户:SongSan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
仿人智能控制基于特征辨识的多控制器、多控制模态结构,其控制的一个显著特点是比例(闭环)和保持(开环)模式的切换,突破了传统控制理论控制信息处理单映射的结构,妥善地解决了稳定性和准确性、快速性之间的矛盾,解决了复杂难控系统的控制可行性问题。但是,由于其多控制器和多控制模态结构,造成特征参数和控制参数众多,给控制器的设计又带来了困难。另外,系统本身因为周围环境的改变而改变或者不确定因素的存在使得控制参数不能在这个运行过程中一成不变,必须要对参数进行实时校正,才能直接用于实际系统。因为对于本论文的研究对象在使用仿人智能控制的同时引入在线参数学习与优化的方法,对于实现快速高品质的实时控制显得十分重要。参数的在线学习与优化在控制中起着重要的作用,其在线学习与离线学习参数的最大区别是在线学习参数可以适应动态环境,而离线学习参数则只适于静态或简单的环境。在线参数的方法包括:模拟退火算法(SA)、粒子群算法(PSO)、单纯形法和强化学习方法等等。本论文首次提出了利用强化学习在线学习优化仿人智能控制器的参数。连续动作强化学习自动机(Continuous Action Reinforcement Learning Automata,CARLA)是强化学习中的一种,其具有在参数空间上连续取值。其算法利用连续概率密度函数(Continuous Probability Density Function,CPDF),处理每一个决策变量,通过多次迭代对参数的修正,最终将参数收敛到一个稳定值上,每一次修正的过程都取决于每次迭代后得到的强化信号值。本文有效地实现了利用连续动作强化学习自动机在线学习具有多模态控制结构和分层递阶结构的仿人智能控制器参数。在文章的最后,选取研究对象,分别实现基于CARLA的仿人智能控制参数在线学习及基于CARLA的PID控制参数在线学习与优化。此外还分别利用遗传算法对系统参数进行寻优与CARLA参数寻优进行对比。结果显示,在不同控制器作用下,仿人智能控制明显优于PID控制;在相同控制器作用下,CARLA在线学习参数明显优于遗传算法寻优参数等其他算法。
其他文献
目前,虚拟现实技术已经成为科学界和工程界广受关注的一门技术。它被广泛应用于社会生活的各个领域,尤其是建筑、军事、医疗、娱乐等方面。虚拟漫游系统是虚拟现实技术的一个
中学阶段上承小学,下启大学,是大中小幼一体化德育体系中非常重要的一环.在北京市学校德育研究会的带领下,中学基地校进行了很多有益尝试和积极探索.下面,以北京市第十二中学
期刊
基于人脸图像的人类生理年龄自动估计是近年来研究的一个新兴热点方向,也是人脸识别领域的一个重要研究方向和难点。而非负矩阵分解算法也是近几年来兴起的一个新的数据描述方
社会主义核心价值观中有一个关键词“敬业”,这是对公民践行社会主义核心价值观的一个基本要求.然而,“敬业”不是喊口号,需要培养与训练,其最高境界就是把“敬业”训练成习
期刊
每位校长都希望自己的学校能够成长出一批优秀的教师.可是,有些时候却事与愿违,为什么会这样呢?我们往往会反思,试着去寻找其中的缘由.有时候,我们也会很京讶,为什么一位老师
期刊
随着我国首台南极科考支撑装置在南极成功运行,我国在南极科考远程支撑平台方面取得了极大的突破。为了满足新的性能和功能的设计需求,需要在首台科考支撑装置的基础上进一步
庚子伊始,因抗击新冠肺炎(COVID-19)疫情的需要,全国教育系统被迫宣布“停课不停学”,并以前所未有规模的在线教育方式为学生提供在家学习的机会.因此,2020年已被人命名为“
期刊
煤矿的现代化管理和煤矿的安全生产是煤炭行业举足轻重的大事。在煤炭行业安全管理方面,人的管理是一个十分关键的问题。随着无线通信、自动识别和计算机网络技术在煤矿安全生
学位
现象rn随着疫情防控形势的积极向好,复学后,教师们如何消除疫情期间学生的负面心理,使其调整好学生的状态,让正常的课堂教学与居家线上学习有效衔接,这是学校、家长和学生最
期刊
2020年是全面建成小康社会的收官之年,就首都教育而言,同时也是“开展北京高等学校社会力量参与小学体育美育发展工作”项目(以下简称“高参小”项目)实施六周年的收官之年,
期刊