策略迭代相关硕士博士期刊学术论文

在职业教育高质量发展的时代背景下,高职院校示范建设项目既是教育行政管理部门遴选建设高水平职业院校的重要途径,也是职业院校深......

期刊

高职院校示范建设项目化管理策略迭代

振镜系统建模及控制算法研究

在光学领域对精度要求愈来愈高的当代,振镜系统被广泛应用于各种光学场景,而决定振镜系统效果最重要的因素便是振镜电机的控制精度......

学位

振镜系统建模系统辨识希望频率法策略迭代

强化学习中的优化策略研究

自21世纪以来,随着芯片制造与设计工艺的快速发展,计算机的算力有了质的飞跃,因此机器学习科学取得了空前的应用,尤其是深度神经网......

学位

强化学习策略函数高维连续空间散度策略迭代

结合可满足性模理论与抽象解释的程序分析技术研究

随着软件需求的不断增加,软件系统日趋复杂与庞大,软件的可信性要求越来越高,尤其是在航空、航天、医疗、金融等安全攸关领域。许......

学位

程序分析抽象解释可满足性模理论策略迭代模版多面体

基于半马尔可夫决策过程的风机维修优化研究

当今世界,能源是人类生存和发展的重要基础。其中风能是一种分布广泛的清洁型能源,风力发电也越来越受到人类的关注与重视。与此同......

学位

半马尔可夫决策过程策略迭代 Q学习风力发电机维修决策优化模型

不确定SMDP基于性能势的鲁棒控制研究

半Markov决策过程(SMDP)是离散事件动态系统用于描述随机序贯决策问题的一类基本模型，其性能的分析和优化对许多现实系统具有重要的......

学位

半Markov决策过程性能势鲁棒控制策略迭代遗传算法

传送带给料生产加工站的神经元在线优化算法

现实世界的一些生产加工企业中,存在一类由生产加工站作为加工主体的生产线,称为传送带给料生产加工站(CSPS)。论文研究CSPS系统的......

学位

传送带给料生产加工站(CSPS) Q学习在线策略迭代(OPI) 小脑模型关节控制器(CMAC) 在线支持向量机(online SVM)

非线性Markov跳变系统的自适应优化算法研究

本文研究了连续时间非线性Markov跳变系统的在线自适应优化控制算法。由于Markov跳变系统的各子系统之间存在着耦合关系,本文引入......

学位

Markov跳变系统非线性自适应优化控制子系统转换神经网络线性微分包含策略迭代

基函数自适应的强化学习的神经网络实现的研究

强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最......

学位

强化学习策略评价策略迭代值函数函数逼近器基函数

基于自适应动态规划的Stackelberg微分对策的研究

现实世界中充满着矛盾、对抗、冲突或合作等问题,微分对策作为能够通过数学方式对这些复杂问题进行有效刻画和处理的重要方法,自提......

学位

Stackelberg微分对策自适应动态规划神经网络策略迭代

基于勒贝格采样的随机系统最优控制研究

随机动态系统和勒贝格采样系统在通讯网络、柔性制造、人工智能、军事指挥管理、生产生活等各个领域有着广泛的应用,是学习和优化......

学位

随机动态系统勒贝格采样系统性能势策略迭代 SARSA算法最优控制

基于平方和方法的TCSC控制器设计

近年来,随着我国经济的迅速发展,各行业对能源的需求越来越高,而电能作为国家重要的二次能源,其质量在一定程度上关乎着国家的产业......

学位

非线性系统电力系统 TCSC 平方和方法 H_∞控制策略迭代不确定参数

基于策略迭代的线性奇异摄动系统自学习最优控制

奇异摄动系统是一类快、慢动态耦合的双时间尺度系统,广泛存在于电力系统、化工过程、机器人等领域。现有奇异摄动系统最优控制方......

学位

奇异摄动系统自适应动态规划最优控制策略迭代

基于平方和方法的电力系统非线性控制设计

电力系统作为关乎国计民生的至关重要的基础资源,已经成为当代社会以及经济运行的神经中枢、动力之源,人们也对电力系统能否可持续......

学位

电力系统励磁控制平方和策略迭代 H_∞控制

基于测地高斯核的策略迭代强化学习

作为一类重要的机器学习方法,经典查找表形式的强化学习方法在大规模或者连续空间任务中普遍面临“维数灾难”问题,而基于逼近技术......

学位

强化学习策略迭代基函数流形空间测地高斯核

基于策略迭代算法的连续时间线性Markov跳变系统r非零和微分反馈Nash控制

针对一类连续时间线性Markov跳变系统,本文提出了一种新的策略迭代算法用于求解系统的非零和微分反馈Nash控制问题.通过求解耦合的......

期刊

策略迭代 Markov跳变线性系统非零和微分反馈Nash策略

基于强化学习的蓄电池储能系统的优化控制

以风能、太阳能等为代表性的分布式发电单元受到气候和天气影响,发电功率难以保证平稳,可能会引起频率和电压不稳,进而引起停电事......

学位

分布式发电储能系统 V2G 强化学习 Sarsa

智能电网弹性响应时间业务需求的接入控制

考虑智能电网多种类型业务需求的接入控制,通过利用响应时间的弹性来平缓业务负荷的波动,使得电网运行的长期平均代价最小.针对业......

期刊

智能电网需求负荷控制 Markov控制过程策略迭代弹性响应接入控制状态空间电网运行结合性能维数灾问题

基于多智能体深度确定策略梯度算法的有功-无功协调调度模型

实现有功-无功协调调度是促成"未来一体化大电网调控系统"建设中的关键一环。为解决调度中存在反复调节、难以协调冲突等问题,采用......

期刊

多智能体多智能体深度确定策略梯度算法策略迭代灵活调控资源有功-无功协调

双轮驱动移动机器人的学习控制器设计方法

提出一种基于增强学习的双轮驱动移动机器人路径跟随控制方法,通过将机器人运动控制器的优化设计问题建模为Markov决策过程,采用基......

期刊

移动机器人动力学模型运动控制非完整系统增强学习策略迭代 mobile robot dynamic model motion control no

基于测地高斯基函数的递归最小二乘策略迭代

在策略迭代结强化学习方法的值函数逼近过程中，基函数的合理选择直接影响方法的性能．为更好地描述环境的拓扑关系，采用测地线距离来替......

期刊

策略迭代递归最小二乘图论测地距离高斯函数基函数 policy iteration recursive least squares graph th

基于Markov切换空间的分布式协同接入控制模型

基于3层架构的映射框架，本文以视频业务为主要研究对象，研究了分布式协同接入控制系统的建模和调控机理。不失一般性，假设视频业务需......

期刊

MARKOV决策过程 MARKOV切换系统性能势策略迭代 Markov decision process Markov switching system

求解美式期权定价问题的两类新的迭代算法

提出了2类改进的局部策略迭代算法求解一类美式期权定价模型离散得到的优化控制差分方程组,证明了算法的收敛性.数值实验表明了算......

期刊

美式期权转换模型策略迭代局部策略迭代 American option regime switching model policy iteration

Markov控制过程在紧致行动集上的迭代优化算法

研究一类连续时间Markov控制过程(CTMCP)在紧致行动集上关于平均代价性能准则的优化算法.根据CTMCP的性能势公式和平均代价最优性......

期刊

MARKOV控制过程紧致行动集性能势策略迭代数值迭代 Algorithms Convergence of numerical methods Itera

一类分层非结构化P2P系统的随机切换模型

对于一类利用集中式构架和分布式构架各自优点的分层非结构化P2P系统,通过定义一种Markov切换空间模型来描述其动态分组切换行为.......

期刊

MARKOV决策过程分层非结构化P2P 超级节点策略迭代 Markov decision process Hierarchical unstructere

模态跳变概率可控的Markov跳变线性系统的优化

研究模态跳变概率可控的Markov跳变线性二次模型的最优控制问题.考虑两类模态跳变控制策略：开环模态控制和闭环模态控制,应用策略迭......

期刊

MARKOV跳变系统最优控制策略迭代 Markov jump system Optimal control Policy iteration

微小型飞行器强化学习控制方法研究

微小型制导弹药是一类典型的微小型飞行器,具有尺寸小、便于携带、精度高、附带损伤小等特点,可装备于无人机或单兵作战,将在未来......

学位

微小型制导弹药强化学习最优控制 Actor-Critic结构策略迭代跟踪控制饱和输入神经网络

大气层外动能多拦截器目标拦截策略研究

对大气层外动能多拦截器拦截策略进行研究，首先对拦截策略的目标函数进行分析，针对不同情况下理论瞄准点和多目标分配方法决策的求解......

期刊

动能拦截器拦截策略策略迭代 Kinetic Vehicle Impact Policy Policy-iteration

基于自适应动态规划的最优输出反馈控制研究

近年来最优控制问题一直是控制领域研究的热点之一,其主要思路是找到一个最优的控制策略使得由系统状态和控制策略组成的价值函数......

学位

最优输出反馈控制数据驱动自适应动态规划策略迭代状态重构

平行能源系统:博弈的复杂社会技术系统

为了研究和模拟能源系统与社会系统之间的交互,提出了基于博弈论的复杂社会技术系统CSTS(compos ite socio-technical systems),从......

期刊

复杂社会技术系统博弈分布式节点电价策略迭代分布式虚拟迭代算法 composite social-technical systems(CSTS)gamed

非参数化近似策略迭代并行强化学习算法

针对在线近似策略迭代强化学习算法收敛速度较慢的问题,提出一种非参数化近似策略迭代并行强化学习算法。通过学习单元构建样本采......

期刊

并行强化学习非参数化策略迭代 K均值聚类倒立摆 parallel reinforcement learningnonparametricstrategy

基于灵敏度分析的随机系统优化及其在金融工程中的应用

本文研究了随机系统的学习与优化理论及其在金融工程中的应用。采用基于灵敏度分析的随机系统优化方法,重点分析了受约束的线性二......

学位

马尔可夫决策过程灵敏度分析随机线性二次型策略迭代风险传染

一种批量最小二乘策略迭代方法

策略迭代是一种迭代地评估和改进控制策略的强化学习方法.采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数......

期刊

强化学习批量更新最小二乘策略迭代

强化学习中离策略算法的分析及研究

强化学习是一种通过与环境进行“试错”交互寻找能够带来最大期望累积奖赏策略的学习方法。根据学习过程中行为策略与目标策略是否......

学位

强化学习离策略函数近似自模拟度量值函数迁移策略迭代贝叶斯推理

基于零和博弈方法的多智能体系统H∞一致性

针对存在外部扰动情形下离散多智能体系统的H∞一致性问题,利用二人零和博弈方法,一致性协议和外部扰动分别被看作博弈双方参与者,......

期刊

零和博弈多智能体系统 H∞一致性策略迭代 zero-sum gamemultiagent systemH∞consensuspolicy iteration

基于动态规划理论的改进型价值迭代算法

自适应波形选择在认知雷达中起着非常重要的作用，自适应算法的好坏将直接影响到波形选择的效果。目前，策略迭代算法、价值迭代算法被......

期刊

波形选择策略迭代动态规划理论价值迭代 waveform selection strategy-iteration dynamic planning the

基于部分可观察马尔科夫决策过程的序列规划问题的研究

智能规划(AI planning)是传统人工智能最重要的研究领域之一。随着问题规模不断增大,复杂程度不断提高,如何在大规模不确定环境下......

学位

部分可观测马尔科夫决策过程基于点的值迭代策略迭代启发式在线算法蒙特卡罗法

视频业务的分布式协同接入控制建模

基于三层架构的映射框架，本文研究了分布式协同接入控制的建模和调控机理。因为视频业务已成为引起接入网性能瓶颈的主要因素，所以本......

期刊

控制理论与控制工程马尔可夫决策过程马尔可夫切换系统性能势策略迭代 Control theory and control engineeringMarko

大规模网络服务系统能耗控制与性能优化

由于人们对网络服务的需求急剧增长,网络服务提供系统的数量和规模出现爆炸式增长,同样网络服务系统的耗电量也在快速增加。网络服......

学位

能耗控制多媒体服务视频点播时移电视自适应播放多媒体网关 Marrkov决策过程性能势策略迭代

连续时间MDPs增强学习方法及其在无人机控制中的应用

无人机系统在恶劣气象条件和动态战场环境中的应用,给无人机控制技术带来不确定性、高度非线性、多输入多输出、输入通道耦合以及......

学位

连续时间Markov决策过程性能势策略迭代增强学习控制无人机控制

基于数据的ADP离线值迭代算法和在线Q学习算法研究

自适应动态规划方法是求解非线性系统最优控制的一种有效控制方法。在被控对象的内部动态特性已知的情况下,自适应动态规划的值迭......

学位

自适应动态规划在线训练离线训练策略迭代值迭代 pH值优化控制

一类混合资源定位服务的优化模型

对一类用于分布式VOD系统的混合了单步k随机漫步和全局中心索引的资源定位服务，用基于Markov过程的模型来描述其中的定位过程，并引入......

期刊

资源定位 MARKOV 事件策略迭代 Resource Location Markov Event Policy Iteration

船舶航向最优化控制设计

随着控制理论的发展,越来越多新型的控制器算法被运用到船舶航向控制中,且取得了较好的控制效果,但是,人们对控制器的要求也随着控......

学位

船舶航向最优控制策略迭代神经网络节能性

基于半马尔可夫控制过程的智能电网最优储能控制

针对具有多种类型业务需求的智能电网储能控制问题,在考虑业务需求和用户行为的随机分布特性,以及储能设备的充放电特性的基础上,......

期刊

智能电网需求负荷控制储能半马尔可夫控制过程策略迭代

基于平方和方法的H∞最优励磁控制

为了改善电力系统在干扰信号下的稳定性,在单机无穷大电力系统的基础上,提出了一种基于平方和方法的H∞最优励磁控制设计方法。本......

期刊

策略迭代平方和电力系统 H∞最优励磁控制 policy iterationsum of squarespower systemH ∞ optimal exc

基于半马尔可夫决策过程的风机变速箱最优维修策略研究

针对风机变速箱的劣化特性和维修策略问题,将变速箱的劣化过程看成一个Gamma过程,把维修方式和检测时间间隔作为决策变量,同时又考......

期刊

变速箱半马尔可夫决策过程状态维修策略迭代 Q 学习算法 gearbox semi-Markov decision process condition-ba

连续时间Markov控制过程的平均代价最优鲁棒控制策略

在Markov性能势基础上,研究了一类转移速率不确定但受紧集约束的遍历连续时间Markov控制过程(CTMCP)的鲁棒控制问题.根据系统的遍......

期刊

Markov性能势连续时间Markov控制过程鲁棒控制策略策略迭代最优控制 Markov performance potentials continuo

半Markov控制过程在平均准则下的优化算法

研究了一类半Markov控制过程(SMCP)在紧致行动集上关于无限水平平均代价准则的性能优化算法.利用等价Markov过程的方法,导出了SMCP......

期刊

半Markov控制过程紧致行动集性能势策略迭代数值迭代 semi-Markov control processes compact action set

基于强化学习的JLQ模型的直接自适应最优控制

研究离散时间跳变线性二次(JLQ)模型的直接自适应最优控制问题.将强化学习的理论和方法应用于JLQ模型,设计基于Q函数的策略迭代算......

期刊

Markov跳变线性系统策略迭代 Q函数直接自适应最优控制

基于策略迭代的连续时间系统的随机线性二次最优控制

针对模型参数部分未知的随机线性连续时间系统,通过策略迭代算法求解无限时间随机线性二次(LQ)最优控制问题.求解随机LQ最优控制问......

期刊

随机代数Riccati方程随机微分方程策略迭代最优控制

看过本文同时还关注