论文部分内容阅读
本文基于深度强化学习技术,研究了一类连续时间非线性系统的自适应优化控制问题。对于复杂或模型未知的非线性系统来说,由于系统模型的复杂性和未知性,很难从模型的角度出发去设计优化控制算法。考虑到强化学习的决策能力与深度学习的环境感知能力,本文提出了三种在线求解连续时间非线性系统的自适应优化控制器算法。本文提出的深度强化学习算法最大的优点是将深度学习与强化学习相结合。本文的主要工作和贡献具体如下:首先,针对一类具有输入时滞的模型部分未知的连续时间非线性系统,研究了一种新的在线自适应优化控制器设计方案。利用线性微分包含技术对原系统进行线性化处理,通过在线策略迭代算法得到了线性化系统的自适应优化控制器,并证明了所设计的自适应优化控制算法的收敛性。最后,通过两个仿真实例验证了该方法的有效性。然后,研究了一类模型未知连续时间非线性系统的自适应优化控制器设计问题。结合Q-学习算法和生成式对抗网络方案,成功地设计了一种新的连续时间模型未知非线性系统的自适应优化控制算法。采用最新的生成式对抗网络训练策略来稳定系统,并证明了所设计的自适应优化控制算法的收敛性。最后,通过仿真实例验证了该方法的有效性,并通过与传统的角色-批评家算法的比较说明了该算法的优越性。接着,考虑到在大多数复杂的工业系统的优化控制过程中,确定一个精确的代价函数是非常困难的。针对这一问题,提出了一种基于代价预测的深度元强化学习算法来求解优化控制器。采用最新的编解码器结构来构建代价函数网络,并结合元学习算法和强化学习方案成功地设计了一种可以适应不同实际任务环境下的优化控制设计方法。最后,通过仿真实例验证了该方法的有效性和优越性。最后,给出了概括总结和前景展望,并指出了研究中有待进一步解决和完善的问题。