一种改进的强化学习方法在RoboCup中应用研究

来源 :广西师范大学学报(自然科学版) | 被引量 : 0次 | 上传用户:wmxlg2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于CMAC(cerebella model articulation controller)提出一种动态强化学习方法(dynamic cerebella model articulation controller-advantage learning,DCMAC-AL).该方法利用advantage(λ)learning计算状态一动作函数,强化不同动作的值函数差异,以避免动作抖动;然后在CMAC函数拟合基础上,利用Bellman误差动态添加特征值,提高CMAC函数拟合的自适应性.同时,在RoboCup仿
其他文献
作为物理学三大定律之一的动量守恒定律,以其在知识体系中的重要性及在实际应用中的广泛性,一直处于高考命题考查的重点和热点。历年不少考生由于对守恒条件把握不准、研究对象
摘 要:中华人民共和国成立70年来,我国经济一直保持着高速发展的态势,粤港澳城市群作为改革开放的重要抓手,不断推动着我国经济向上发展和进一步对外开放。在2018年,粤港澳大湾区以仅占国土面积约0.6%,占全国人口总数约5%创造了总量约为10.87万亿元的GDP,约占我国GDP的12%。新时代下的粤港澳大湾区有着良好的区位和基础设施优势,科技创新能力强,是高端生产性服务中心,建设粤港澳大湾区在我国新
人的性格主要是在后天的环境中形成的,它在环境和教育的影响下形成,也就可能在同样影响下被改变。从这个意义上我们可以说:虽然“本性难移,”但却是“本性能移的。”
目的探讨静动脉血二氧化碳分压差值(Pcv-aCO2)对经过早期液体复苏治疗后中心静脉血氧饱和度(ScvO2)>70%的重症肺炎患者的临床价值。方法28例经过早期液体复苏治疗后ScvO2>70%
通过机械合金化方法制备Fe100-xCrx(x=3,5,7。9,11)合金微粉,采用XRD和SEM对合金微粉的微结构进行分析,最后利用矢量网络分析仪对合金微粉的电磁特性进行表征。结果表明,合金微粉厚度
2004年山东等四省区率先进行新课程改革。以化学平衡为基础的四大平衡(化学平衡、电离平衡、水解平衡、沉淀溶解平衡)是《化学反应原理》模块的重要内容,占据了整个模块的绝大部