一种基于强化学习的在线神经模糊控制系统

来源 :中国科学院研究生院学报 | 被引量 : 0次 | 上传用户:luoshibo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了实现基于非训练数据的神经模糊控制器的在线学习,提出了一种基于强化学习的神经模糊控制系统和相应的学习算法.该控制系统由神经模糊预测器和神经模糊控制器两部分组成,其中,神经模糊控制器采用基于确定度的模糊规则模型作为知识表示形式的扩展型神经模糊网络.在学习算法的设计中,尝试了利用强化信号得到输入状态的"期望输出",进而将强化学习转化为基于训练数据学习的解决思路.仿真实验验证了所提出的控制系统结构和学习算法的合理性和可行性.
其他文献
心理学家罗西和亨利曾做过一个著名的反馈效应实验:他们把一个班的学生分为三组,每天学习之后就进行测验。测验后分别给予学生不同的反馈方式:对第一组学生每天告知其学习结果;对
【正】指导学生学习中国画,首先面临的就是笔墨运用问题。以笔运墨,用笔是排在第一位的,而用笔通常是指线条(其中点是线条的缩短,面是线条的扩大及排列)的各种描绘方法,也即
报道了一种简便的金属氧化物纳米点薄膜的合成方法.首先制备了具有有序纳米凹坑阵列的多孔阳极氧化铝模板,然后在模板表面真空蒸镀金属薄膜,对所制备的金属薄膜进行氧化处理,
在数学教学中加强学生说话训练,不但能培养学生的口头表达能力,而且能培养学生的逻辑思维能力,发展学生的智力,提高学生的素质。笔者在多年的小学数学教学中,对提高学生的说话能力
利用分别征服攻击、Chepyzhov提出的快速相关攻击以及代数攻击等3种算法对改进的求和生成器进行了密码分析,并分别给出了攻击算法的计算复杂度和所需要的密钥流的长度.
以SOS规则的方式定义了含中断和精化算子的进程代数LOTOS的操作语义,使得这一操作语义与指称语义相对应,即:由指称语义导出的传输系统和操作语义定义的传输系统双模拟.操作语义的