论文部分内容阅读
多智能体系统的最优一致性控制问题是指:在每个智能体仅知道自身和其邻居智能体信息的情况下,对每个智能体设计控制器,使每个智能体的状态或输出达到一致,同时要求性能函数达到最小值。由于非线性和不确定性广泛存在于实际控制系统中,因此研究不确定非线性多智能体系统的最优一致性控制问题具有重要的实际意义。本文对不确定非线性多智能体系统的最优状态一致性控制问题和最优输出一致性控制问题进行了研究。主要的研究工作如下:
第一,本文研究了模型完全未知的非线性多智能体系统最优状态一致性控制问题。针对状态可测,但模型完全未知的领导—跟随非线性多智能体系统,首先利用反步法和动态面控制法在有向图下设计了一个全分布式的状态观测器来观测领导者的状态。然后结合观测器状态与跟随者状态构造了一个增广状态,并基于该增广状态系统重构了一个包含衰减项的性能函数,再利用策略迭代算法求解使增广状态系统渐近稳定以及性能函数最小化的最优控制器。为解决策略迭代算法依赖跟随者动态模型的问题,策略迭代算法采用不依赖领导者和跟随者动态模型的积分强化学习算法。为解决积分强化学习算法计算过程中的维数灾难问题,又应用critic-actor神经网络估计了积分强化学习算法中的性能函数和控制器,并用最小二乘法求解了critic-actor神经网络的权重。最后,利用仿真验证了算法的可行性。
第二,本文研究了模型部分未知的非线性多智能体系统最优输出一致性控制问题。针对跟随者状态不可测,且跟随者动态模型部分未知和领导者动态模型完全未知的非线性多智能体系统,首先基于神经网络重构了跟随者动态模型中未知的内部函数,然后基于输出反馈设计了神经网络状态观测器来观测跟随者不可测的状态。接着利用跟随者状态观测器系统和领导者状态观测器系统构造了一个增广系统,并基于该增广系统重构了一个包含衰减因子的性能函数,再利用策略迭代算法求解使增广系统渐近稳定以及性能函数最小化的最优控制器。为解决策略迭代算法依赖跟随者状态观测器系统动态模型的问题,策略迭代算法采用不依赖领导者状态观测器系统和跟随者状态观测器系统动态模型的积分强化学习算法。为解决策略迭代算法计算过程中的维数灾难问题,又应用critic-actor神经网络估计了策略迭代算法中的性能函数和控制器,并用梯度下降法设计了critic-actor神经网络权重的自适应律,且在该critic-actor神经网络中,两个权重可以同时进行调整。最后,利用仿真验证了算法的可行性。
第一,本文研究了模型完全未知的非线性多智能体系统最优状态一致性控制问题。针对状态可测,但模型完全未知的领导—跟随非线性多智能体系统,首先利用反步法和动态面控制法在有向图下设计了一个全分布式的状态观测器来观测领导者的状态。然后结合观测器状态与跟随者状态构造了一个增广状态,并基于该增广状态系统重构了一个包含衰减项的性能函数,再利用策略迭代算法求解使增广状态系统渐近稳定以及性能函数最小化的最优控制器。为解决策略迭代算法依赖跟随者动态模型的问题,策略迭代算法采用不依赖领导者和跟随者动态模型的积分强化学习算法。为解决积分强化学习算法计算过程中的维数灾难问题,又应用critic-actor神经网络估计了积分强化学习算法中的性能函数和控制器,并用最小二乘法求解了critic-actor神经网络的权重。最后,利用仿真验证了算法的可行性。
第二,本文研究了模型部分未知的非线性多智能体系统最优输出一致性控制问题。针对跟随者状态不可测,且跟随者动态模型部分未知和领导者动态模型完全未知的非线性多智能体系统,首先基于神经网络重构了跟随者动态模型中未知的内部函数,然后基于输出反馈设计了神经网络状态观测器来观测跟随者不可测的状态。接着利用跟随者状态观测器系统和领导者状态观测器系统构造了一个增广系统,并基于该增广系统重构了一个包含衰减因子的性能函数,再利用策略迭代算法求解使增广系统渐近稳定以及性能函数最小化的最优控制器。为解决策略迭代算法依赖跟随者状态观测器系统动态模型的问题,策略迭代算法采用不依赖领导者状态观测器系统和跟随者状态观测器系统动态模型的积分强化学习算法。为解决策略迭代算法计算过程中的维数灾难问题,又应用critic-actor神经网络估计了策略迭代算法中的性能函数和控制器,并用梯度下降法设计了critic-actor神经网络权重的自适应律,且在该critic-actor神经网络中,两个权重可以同时进行调整。最后,利用仿真验证了算法的可行性。