基于深度强化学习的非线性系统自适应优化控制

来源 :安徽大学 | 被引量 : 0次 | 上传用户:qq271232312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文基于深度强化学习技术,研究了一类连续时间非线性系统的自适应优化控制问题。对于复杂或模型未知的非线性系统来说,由于系统模型的复杂性和未知性,很难从模型的角度出发去设计优化控制算法。考虑到强化学习的决策能力与深度学习的环境感知能力,本文提出了三种在线求解连续时间非线性系统的自适应优化控制器算法。本文提出的深度强化学习算法最大的优点是将深度学习与强化学习相结合。本文的主要工作和贡献具体如下:首先,针对一类具有输入时滞的模型部分未知的连续时间非线性系统,研究了一种新的在线自适应优化控制器设计方案。利用线性微分包含技术对原系统进行线性化处理,通过在线策略迭代算法得到了线性化系统的自适应优化控制器,并证明了所设计的自适应优化控制算法的收敛性。最后,通过两个仿真实例验证了该方法的有效性。然后,研究了一类模型未知连续时间非线性系统的自适应优化控制器设计问题。结合Q-学习算法和生成式对抗网络方案,成功地设计了一种新的连续时间模型未知非线性系统的自适应优化控制算法。采用最新的生成式对抗网络训练策略来稳定系统,并证明了所设计的自适应优化控制算法的收敛性。最后,通过仿真实例验证了该方法的有效性,并通过与传统的角色-批评家算法的比较说明了该算法的优越性。接着,考虑到在大多数复杂的工业系统的优化控制过程中,确定一个精确的代价函数是非常困难的。针对这一问题,提出了一种基于代价预测的深度元强化学习算法来求解优化控制器。采用最新的编解码器结构来构建代价函数网络,并结合元学习算法和强化学习方案成功地设计了一种可以适应不同实际任务环境下的优化控制设计方法。最后,通过仿真实例验证了该方法的有效性和优越性。最后,给出了概括总结和前景展望,并指出了研究中有待进一步解决和完善的问题。
其他文献
苏德尔特地区潜山是其油气的主要产层,由于其埋深相对较深,又是风化壳储层,探井较少,对其油气成藏条件和成藏模式认识不深入,严重影响了油气勘探的深入,因此,开展苏德尔特地区潜山油气成藏条件及成藏模式的研究,对正确认识其油气分布规律和指导油气勘探均具有重要意义。本论文在区域构造和地层研究的基础上,利用钻井、测井和地震资料,从源岩供油条件,储集条件和遮挡条件三个方面进行了苏德尔特地区潜山油气成藏条件研究,
空间性是石油信息的重要特性。随着遥感(Remote Sensing,RS)、地理信息系统(Geographic Information System,GIS)、全球定位系统(Global Position System,GPS)技术的成熟与发展,现代测
"脾生气,肺主气",气的运动变化尤其脾胃、肺的气机升降是水液、血液及其整个机体新陈代谢活动正常进行的首要的基础环节。宋康教授治疗肺系疾病首以通调顺畅气机、尤其脾胃气
为了大化实现高职高专相关专业人才培养目标,该文通过对本专业典型工作任务的分析与描述,结合"工学一体化"理论,制定具有定就业导向性的课程设置细则。
地理特征是地球空间上客观存在、具有描述信息的地理实体。特征数据模型倾向于对地理实体的概念描述,它从几何分布、专题要素与时态变化三个方面来描述地理特征,能够实现语义层次上的数据共享。这对于以数据共享和地图制图为主要目的的《南极赛博地图集》来说,能够很好地对南极数据进行抽象和概括。因此,本文就如何利用特征数据模型对地图集中的南极数据进行描述作了阐述。