论文部分内容阅读
连续时间马尔可夫决策过程在很多领域有着广泛的应用,其中,平均报酬(费用)准则是最常用的准则之一,因为它被广泛应用于电信与排队系统,生产过程等领域。因此,对连续时间平均准则的研究不仅有一定的理论价值,而且有一定的实际意义。本文在转移率和报酬(费用)率有界的情形下,给出了一种特殊的马尔可夫决策过程——受控生灭系统平均最优的新条件。我们利用生灭过程的遍历性理论来确定其指数遍历的条件,这些仅仅建立在模型中初始数据之上的条件,可以被我们用以证明最优平稳策略的存在性,而且我们还将实现其在排队系统中的应用。