即时差分学习相关硕士博士期刊学术论文

目的讨论平均准则下控制马氏链的强化学习算法,在事先未知状态转移矩阵及报酬函数的条件下,通过试凑法寻找使得长期每阶段期望平均......

期刊

以六子棋机器博弈为应用背景，实现了基于即时差分学习的估值函数权值调整自动化。提出了一种新的估值函数设计方案，解决了先验知识与......

期刊

讨论基于线性近似的即时差分(TD(λ))学习和最小二乘即时差分(LSTD)学习算法以逼近一平均报酬准则的马氏决策过程的相对值函数,逼......

期刊

对非周期不可约Markov链上的线性函数近似平均报酬指标即时差分学习方法进行了研究．近似器由权值进行增量更新的固定特征函数线性加......

期刊

运用基于性能势的M步向前(look-ahead)异步策略迭代算法研究了半Markov决策过程(SMDP)优化问题。首先给出了基于性能势理论求解的......

期刊