可数半Markov决策过程折扣代价性能优化

来源 :控制与决策 | 被引量 : 0次 | 上传用户:qfcywm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
讨论一类可数半Markov决策过程(CSMDP)在折扣代价准则下的性能优化问题,运用等价Markov过程方法,定义了折Poisson方程,并由该方程定义了α-势,基于α-势,导出了由最优平稳策略所满足的最优性方程.较为详细地讨论了最优性方程解的存在性问题,并给出了其解存在的一些充分条件。
其他文献
针对无线视频通信中现有的差错控制方法的缺点和局限性,根据无线信道高误码率和高时变性的特点,提出一种基于反馈的信道自适应差错控制策略.根据反馈信号预测未来信道的状态,自适
构造一种线性差分式Hopfield网络(LDHNN),其稳定状态可使能量函数达到唯一极小值,利用该网络稳定性与其能量函数收敛特性的关系,提出了基于LDHNN的移动域控制方法,LDHNN的理论设计
提出了基于粗粒度空间和垂直分解结构的控制体系结构,用于解决实时多足球机器人的对抗问题.总结了智能机器人的控制体系结构,提出了控制体系结构设计中的几个重要原则.提出了粗粒
目的分析汕头市医院与幼托机构消毒工作现状,评价两类场所的消毒效果,探讨落实消毒措施、提高消毒效率的有效途径.方法按<消毒技术规范>(2002版)及国家统一调查检测方法进行.
针对永磁同步电动机系统的非线性耦合特性以及参数的不确定性,采用自适应反步控制实现永磁同步电动机的非线性控制,在补偿参数不确定性影响,提高系统的抗干扰能力的同时,实现了永
研究一类线性不确定广义时滞系统的鲁棒无源滤波器设计问题.系统中所含的不确定性假设是未知且范数有界的.利用线性矩阵不等式方法和Lyapunov函数方法相结合,给出了广义滤波增广