论文部分内容阅读
本文研究的是具有可数状态空间、紧的行动空间、有界转移率函数及上半连续报酬率函数的多约束条件马尔可夫决策过程。目的是解决在其它的报酬率函数的折扣期望满足约束条件时,使目标报酬率函数的折扣期望最大的最优决策的存在性问题。我们将在文章中提出一些假设以保证约束最优策略的存在,也进一步证明存在平稳的约束最优策略,而且约束最优平稳策略可选择的行为的个数不会超过马氏平稳决策所采用的行为个数加上约束条件的个数。文章是通过模型转换,把连续时间模型转换成离散时间模型,再通过解决转换后的问题来解决原问题的。最后我们通过一个例子进一步说明本文所得的结果。