策略迭代相关论文
在职业教育高质量发展的时代背景下,高职院校示范建设项目既是教育行政管理部门遴选建设高水平职业院校的重要途径,也是职业院校深......
在光学领域对精度要求愈来愈高的当代,振镜系统被广泛应用于各种光学场景,而决定振镜系统效果最重要的因素便是振镜电机的控制精度......
自21世纪以来,随着芯片制造与设计工艺的快速发展,计算机的算力有了质的飞跃,因此机器学习科学取得了空前的应用,尤其是深度神经网......
随着软件需求的不断增加,软件系统日趋复杂与庞大,软件的可信性要求越来越高,尤其是在航空、航天、医疗、金融等安全攸关领域。许......
半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型,其性能的分析和优化对许多现实系统具有重要的......
学位
现实世界的一些生产加工企业中,存在一类由生产加工站作为加工主体的生产线,称为传送带给料生产加工站(CSPS)。论文研究CSPS系统的......
本文研究了连续时间非线性Markov跳变系统的在线自适应优化控制算法。由于Markov跳变系统的各子系统之间存在着耦合关系,本文引入......
强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最......
现实世界中充满着矛盾、对抗、冲突或合作等问题,微分对策作为能够通过数学方式对这些复杂问题进行有效刻画和处理的重要方法,自提......
随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化......
近年来,随着我国经济的迅速发展,各行业对能源的需求越来越高,而电能作为国家重要的二次能源,其质量在一定程度上关乎着国家的产业......
奇异摄动系统是一类快、慢动态耦合的双时间尺度系统,广泛存在于电力系统、化工过程、机器人等领域。现有奇异摄动系统最优控制方......
电力系统作为关乎国计民生的至关重要的基础资源,已经成为当代社会以及经济运行的神经中枢、动力之源,人们也对电力系统能否可持续......
针对一类连续时间线性Markov跳变系统,本文提出了一种新的策略迭代算法用于求解系统的非零和微分反馈Nash控制问题.通过求解耦合的......
以风能、太阳能等为代表性的分布式发电单元受到气候和天气影响,发电功率难以保证平稳,可能会引起频率和电压不稳,进而引起停电事......
考虑智能电网多种类型业务需求的接入控制,通过利用响应时间的弹性来平缓业务负荷的波动,使得电网运行的长期平均代价最小.针对业......
实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用......
提出一种基于增强学习的双轮驱动移动机器人路径跟随控制方法,通过将机器人运动控制器的优化设计问题建模为Markov决策过程,采用基......
在策略迭代结强化学习方法的值函数逼近过程中,基函数的合理选择直接影响方法的性能.为更好地描述环境的拓扑关系,采用测地线距离来替......
基于3层架构的映射框架,本文以视频业务为主要研究对象,研究了分布式协同接入控制系统的建模和调控机理。不失一般性,假设视频业务需......
提出了2类改进的局部策略迭代算法求解一类美式期权定价模型离散得到的优化控制差分方程组,证明了算法的收敛性.数值实验表明了算......
研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法.根据CTMCP的性能势公式和平均代价最优性......
对于一类利用集中式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态分组切换行为.......
研究模态跳变概率可控的Markov跳变线性二次模型的最优控制问题.考虑两类模态跳变控制策略:开环模态控制和闭环模态控制,应用策略迭......
微小型制导弹药是一类典型的微小型飞行器,具有尺寸小、便于携带、精度高、附带损伤小等特点,可装备于无人机或单兵作战,将在未来......
对大气层外动能多拦截器拦截策略进行研究,首先对拦截策略的目标函数进行分析,针对不同情况下理论瞄准点和多目标分配方法决策的求解......
近年来最优控制问题一直是控制领域研究的热点之一,其主要思路是找到一个最优的控制策略使得由系统状态和控制策略组成的价值函数......
为了研究和模拟能源系统与社会系统之间的交互,提出了基于博弈论的复杂社会技术系统CSTS(compos ite socio-technical systems),从......
针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采......
本文研究了随机系统的学习与优化理论及其在金融工程中的应用。采用基于灵敏度分析的随机系统优化方法,重点分析了受约束的线性二......
策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数......
强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否......
针对存在外部扰动情形下离散多智能体系统的H∞一致性问题,利用二人零和博弈方法,一致性协议和外部扰动分别被看作博弈双方参与者,......
自适应波形选择在认知雷达中起着非常重要的作用,自适应算法的好坏将直接影响到波形选择的效果。目前,策略迭代算法、价值迭代算法被......
智能规划(AI planning)是传统人工智能最重要的研究领域之一。随着问题规模不断增大,复杂程度不断提高,如何在大规模不确定环境下......
基于三层架构的映射框架,本文研究了分布式协同接入控制的建模和调控机理。因为视频业务已成为引起接入网性能瓶颈的主要因素,所以本......
由于人们对网络服务的需求急剧增长,网络服务提供系统的数量和规模出现爆炸式增长,同样网络服务系统的耗电量也在快速增加。网络服......
无人机系统在恶劣气象条件和动态战场环境中的应用,给无人机控制技术带来不确定性、高度非线性、多输入多输出、输入通道耦合以及......
自适应动态规划方法是求解非线性系统最优控制的一种有效控制方法。在被控对象的内部动态特性已知的情况下,自适应动态规划的值迭......
对一类用于分布式VOD系统的混合了单步k随机漫步和全局中心索引的资源定位服务,用基于Markov过程的模型来描述其中的定位过程,并引入......
随着控制理论的发展,越来越多新型的控制器算法被运用到船舶航向控制中,且取得了较好的控制效果,但是,人们对控制器的要求也随着控......
针对具有多种类型业务需求的智能电网储能控制问题,在考虑业务需求和用户行为的随机分布特性,以及储能设备的充放电特性的基础上,......
为了改善电力系统在干扰信号下的稳定性,在单机无穷大电力系统的基础上,提出了一种基于平方和方法的H∞最优励磁控制设计方法。本......
针对风机变速箱的劣化特性和维修策略问题,将变速箱的劣化过程看成一个Gamma过程,把维修方式和检测时间间隔作为决策变量,同时又考......
在Markov性能势基础上,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程(CTMCP)的鲁棒控制问题.根据系统的遍......
研究了一类半Markov控制过程(SMCP)在紧致行动集上关于无限水平平均代价准则的性能优化算法.利用等价Markov过程的方法,导出了SMCP......
研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算......
针对模型参数部分未知的随机线性连续时间系统,通过策略迭代算法求解无限时间随机线性二次(LQ)最优控制问题.求解随机LQ最优控制问......