基于隐偏向信息学习的强化学习算法

来源 :南华大学学报(理工版) | 被引量 : 0次 | 上传用户：ksxxccna

【摘要】

：

传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时，存在收敛速度慢，训练时间长等问题．有效地学习和利用问题中包含的偏向信息可以加快学习速度，提高

【作者】

：

李学勇欧阳柳波李国徽

【机构】

：

长沙大学数学与信息科学系,湖南大学软件学院,华中科技大学计算机科学与技术学院

【出处】

：

南华大学学报(理工版)

【发表日期】

：

2004年2期

【关键词】

：

强化学习 MARKOV决策过程隐偏向信息 SARSA算法复杂度 reinforcement learningMarkov decision processb

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时，存在收敛速度慢，训练时间长等问题．有效地学习和利用问题中包含的偏向信息可以加快学习速度，提高学习效率．在分析了偏向机制特点的基础上引入了隐偏向信息的概念，建立了一种基于偏向信息学习的强化学习模型，并提出了一种基于特征的改进SARSA(λ)算法．针对于拄箱任务的实验表明，改进的算法明显提高了学习效率．

其他文献

技校学生品行素质的现状及对策思考

近几年来中等技工教育得到较快发展,不少中技学生学会了一些专业知识和技能,但是却不懂得如何做人,整体的道德水平有令人忧心的方面。本文着重从现状及其出路两个方面,以及结

期刊

技校教育品行现状对策

复方丹参滴丸治疗不稳定性心绞痛66例临床观察

目的探讨复方丹参滴丸治疗不稳定性心绞痛（UA）效果及其对心电图、血液流变学指标和血脂的影响。方法．将128例UA患者随机分为治疗组（66例）和对照组（62例）。对照组应用常规抗心绞痛药

期刊

复方丹参滴丸心绞痛不稳定型冠状动脉疾病医学中国传统

《医学新知》稿约

《医学新知》由中国农工民主党湖北省委员会主管,武汉大学中南医院和中国农工民主党湖北省委医药卫生工作委员会主办,武汉大学循证与转化医学中心承办的综合性医学学术期刊。

期刊

学科发展趋势医药卫生工作邮发代号学术交流官方网站ISSN最新研究成果发展前沿

全身炎症反应综合征评分应用于产科急危重症患者中的效果评价

目的探究全身炎症反应综合征(systemic inflammatory response syndrome,SIRS)评分应用于产科急危重症患者中的效果。方法选取我院2016年10月-2018年10月收治的产科急危重症

期刊

SIRS评分产科急危重症不良妊娠结局围生儿死亡率SIRS scoreObstetricsCritical illnessAdverse pregnan

次临界堆芯参数变化对Keff值的影响

作为下一代能源的优先选择者,加速器驱动次临界系统ADS能够有效的利用铀和钍资源,并能够转化具有长期放射性的核废料,提高了核安全.文章主要是对快热耦合ADS次临界堆芯进行了

期刊

ADSMCNP程序次临界反应堆KEFF加速器驱动次临界系统Keff值参数ADS MCNP codesubcritical reactorK_(ef

基于隐偏向信息学习的强化学习算法

其他学术论文