论文部分内容阅读
仿人智能控制基于特征辨识的多控制器、多控制模态结构,其控制的一个显著特点是比例(闭环)和保持(开环)模式的切换,突破了传统控制理论控制信息处理单映射的结构,妥善地解决了稳定性和准确性、快速性之间的矛盾,解决了复杂难控系统的控制可行性问题。但是,由于其多控制器和多控制模态结构,造成特征参数和控制参数众多,给控制器的设计又带来了困难。另外,系统本身因为周围环境的改变而改变或者不确定因素的存在使得控制参数不能在这个运行过程中一成不变,必须要对参数进行实时校正,才能直接用于实际系统。因为对于本论文的研究对象在使用仿人智能控制的同时引入在线参数学习与优化的方法,对于实现快速高品质的实时控制显得十分重要。参数的在线学习与优化在控制中起着重要的作用,其在线学习与离线学习参数的最大区别是在线学习参数可以适应动态环境,而离线学习参数则只适于静态或简单的环境。在线参数的方法包括:模拟退火算法(SA)、粒子群算法(PSO)、单纯形法和强化学习方法等等。本论文首次提出了利用强化学习在线学习优化仿人智能控制器的参数。连续动作强化学习自动机(Continuous Action Reinforcement Learning Automata,CARLA)是强化学习中的一种,其具有在参数空间上连续取值。其算法利用连续概率密度函数(Continuous Probability Density Function,CPDF),处理每一个决策变量,通过多次迭代对参数的修正,最终将参数收敛到一个稳定值上,每一次修正的过程都取决于每次迭代后得到的强化信号值。本文有效地实现了利用连续动作强化学习自动机在线学习具有多模态控制结构和分层递阶结构的仿人智能控制器参数。在文章的最后,选取研究对象,分别实现基于CARLA的仿人智能控制参数在线学习及基于CARLA的PID控制参数在线学习与优化。此外还分别利用遗传算法对系统参数进行寻优与CARLA参数寻优进行对比。结果显示,在不同控制器作用下,仿人智能控制明显优于PID控制;在相同控制器作用下,CARLA在线学习参数明显优于遗传算法寻优参数等其他算法。