可数半Markov决策过程折扣代价性能优化

来源 :控制与决策 | 被引量 : 0次 | 上传用户：qfcywm

【摘要】

：

讨论一类可数半Markov决策过程（CSMDP）在折扣代价准则下的性能优化问题,运用等价Markov过程方法，定义了折Poisson方程，并由该方程定义了α-势,基于α-势，导出了由最优平稳策略所满

【作者】

：

殷保群李衍杰周亚平奚宏生

【机构】

：

中国科学技术大学自动化系

【出处】

：

控制与决策

【发表日期】

：

2006年8期

【关键词】

：

可数半Markov决策过程折扣性能准则折扣Poisson方程 α-势最优性方程 Countable semi-Markov decision proces

【基金项目】

：

国家自然科学基金项目（60274012,60574065）,安徽省自然科学基金项目（050420301）.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

讨论一类可数半Markov决策过程（CSMDP）在折扣代价准则下的性能优化问题,运用等价Markov过程方法，定义了折Poisson方程，并由该方程定义了α-势,基于α-势，导出了由最优平稳策略所满足的最优性方程．较为详细地讨论了最优性方程解的存在性问题，并给出了其解存在的一些充分条件。

其他文献

无线视频通信中信道自适应差错控制策略的研究

针对无线视频通信中现有的差错控制方法的缺点和局限性，根据无线信道高误码率和高时变性的特点，提出一种基于反馈的信道自适应差错控制策略．根据反馈信号预测未来信道的状态，自适

期刊

视频编码无线视频通信差错控制反馈控制Video encoding Wireless video delivery Error control Fe

基于递归神经网络的移动域控制方法

构造一种线性差分式Hopfield网络（LDHNN），其稳定状态可使能量函数达到唯一极小值，利用该网络稳定性与其能量函数收敛特性的关系，提出了基于LDHNN的移动域控制方法，LDHNN的理论设计

期刊

递归神经网络移动域控制LQ控制稳定性Recurrent neural network Receding-horizon control LQ con

足球机器人控制体系结构的研究

提出了基于粗粒度空间和垂直分解结构的控制体系结构，用于解决实时多足球机器人的对抗问题．总结了智能机器人的控制体系结构，提出了控制体系结构设计中的几个重要原则．提出了粗粒

期刊

粗粒度行为策略体系垂直分解足球机器人Coarse granularity behavior Strategy system Vertical de

汕头市87家医院、幼托机构消毒效果分析

目的分析汕头市医院与幼托机构消毒工作现状,评价两类场所的消毒效果,探讨落实消毒措施、提高消毒效率的有效途径.方法按<消毒技术规范>(2002版)及国家统一调查检测方法进行.

期刊

幼托机构医院消毒消毒效果总合《消毒技术规范》消毒质量合格率消毒工作消毒措施消毒设施

具有不确定参数永磁同步电动机的自适应反步控制

针对永磁同步电动机系统的非线性耦合特性以及参数的不确定性，采用自适应反步控制实现永磁同步电动机的非线性控制，在补偿参数不确定性影响，提高系统的抗干扰能力的同时，实现了永

期刊

永磁同步电动机自适应反步控制非线性控制二阶滤波速度跟踪Permanent magnet synchronous motor Adaptive ba

线性不确定广义时滞系统的鲁棒无源滤波器设计

研究一类线性不确定广义时滞系统的鲁棒无源滤波器设计问题．系统中所含的不确定性假设是未知且范数有界的．利用线性矩阵不等式方法和Lyapunov函数方法相结合，给出了广义滤波增广

期刊

时滞系统广义系统无源滤波线性矩阵不等式Time-delay systemsDescriptor systems Passive filtering

可数半Markov决策过程折扣代价性能优化

其他学术论文