基于隐偏向信息学习的强化学习算法

来源 :南华大学学报(理工版) | 被引量 : 0次 | 上传用户:ksxxccna
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的强化学习算法应用到大状态、动作空间和任务复杂的马尔可夫决策过程问题时,存在收敛速度慢,训练时间长等问题.有效地学习和利用问题中包含的偏向信息可以加快学习速度,提高学习效率.在分析了偏向机制特点的基础上引入了隐偏向信息的概念,建立了一种基于偏向信息学习的强化学习模型,并提出了一种基于特征的改进SARSA(λ)算法.针对于拄箱任务的实验表明,改进的算法明显提高了学习效率.
其他文献
近几年来中等技工教育得到较快发展,不少中技学生学会了一些专业知识和技能,但是却不懂得如何做人,整体的道德水平有令人忧心的方面。本文着重从现状及其出路两个方面,以及结
目的探讨复方丹参滴丸治疗不稳定性心绞痛(UA)效果及其对心电图、血液流变学指标和血脂的影响。方法.将128例UA患者随机分为治疗组(66例)和对照组(62例)。对照组应用常规抗心绞痛药
《医学新知》由中国农工民主党湖北省委员会主管,武汉大学中南医院和中国农工民主党湖北省委医药卫生工作委员会主办,武汉大学循证与转化医学中心承办的综合性医学学术期刊。
目的探究全身炎症反应综合征(systemic inflammatory response syndrome,SIRS)评分应用于产科急危重症患者中的效果。方法选取我院2016年10月-2018年10月收治的产科急危重症
作为下一代能源的优先选择者,加速器驱动次临界系统ADS能够有效的利用铀和钍资源,并能够转化具有长期放射性的核废料,提高了核安全.文章主要是对快热耦合ADS次临界堆芯进行了