多目标约束连续时间马氏决策过程的折扣模型

来源 :中山大学 | 被引量 : 0次 | 上传用户:daliangengbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  本文研究的是具有可数状态空间、紧的行动空间、有界转移率函数及上半连续报酬率函数的多约束条件马尔可夫决策过程。目的是解决在其它的报酬率函数的折扣期望满足约束条件时,使目标报酬率函数的折扣期望最大的最优决策的存在性问题。我们将在文章中提出一些假设以保证约束最优策略的存在,也进一步证明存在平稳的约束最优策略,而且约束最优平稳策略可选择的行为的个数不会超过马氏平稳决策所采用的行为个数加上约束条件的个数。文章是通过模型转换,把连续时间模型转换成离散时间模型,再通过解决转换后的问题来解决原问题的。最后我们通过一个例子进一步说明本文所得的结果。
其他文献
本文主要研究了与无向图及有向图中距离有关的三个问题:(1)Km∨Kn(m≥1,n≥1)的最小直径定向,(2)有向图中不相交的拟核,(3)离心有向图. 对于图G,设D为G的具有最小直径的定向图,
  本文研究带有可接受服务的负顾客的M/G/1休假排队系统。这系统有一个服务器,它交替地处于正常(工作)状态和休假状态,其工作时间和休假时间分别服从指数分布和一般分布,利用
  本文首先使用补充变量法,对部分拒绝和全部拒绝情形,分别得到稳态下系统的状态转移方程,通过取拉普拉斯变换并利用归一化条件,得到一个很有用的等式,利用这个等式,进一步得到系
不确定非线性系统的跟踪控制问题是一个重要课题,越来越受到学者的重视和关注.在系统的控制器设计环节,我们经常使用自适应后推技术.而后推技术因其反复对虚拟控制器求导,有“微分
本文对数学算法在企业资源规划二次开发中的应用进行了研究。文章把计算上的需求和数学上模型结合起来进行了阐述,其中的笛卡尔乘积在处理数据的上有很深的指导和应用意义,同时