多智能体增强学习的研究与应用

来源 :中南大学 | 被引量 : 0次 | 上传用户:cqssq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多智能体系统是当前人工智能领域的一个研究热点。多智能体系统是一个复杂、动态的环境,系统中问题求解空间巨大,智能体行动策略的设计比较困难并且低效,因此学习技术是多智能体系统中不可缺少的一部分。 多智能体学习存在以下难点:智能体对环境仅部分感知、学习搜索空间太大、学习效率低等,事实上,现有的学习方法多是针对单智能体的,其中任何一种都不能有效解决以上问题,基于此,在综合多种学习方法的基础上,本文做了以下工作: 提出基于统计的多智能体Q学习算法,将统计学习引入增强学习中,通过对智能体间联合动作的统计来学习其它智能体的行为策略,策略向量选取的全概率分布保证了智能体对最优动作的选择,确保了算法的收敛,该算法将多智能体环境下的Q学习空间由指数空间降为线性空间,有效地提高了学习效率;提出基于预测的多智能体Q学习算法(模型),通过引入预测技术对系统状态进行预测,加快了学习的收敛速度,同时,在模型中采用规划技术应用先验知识来解决部分感知问题,该算法的学习性能优于传统的Q学习算法;由于文中的增强学习算法需用到神经网络学习,本文在对BP神经网络学习算法研究的基础上,提出了神经网络扰动学习算法,算法的学习过程类似模拟退火过程,这确保了算法能收敛到全局最优点,有效地克服了BP算法中局部收敛的问题;最后,将提出的学习算法成功应用到RoboCup仿真球队的构建中,并在2004年中国机器人大赛实践中得到了检验。
其他文献
目的比较分析软通道微创穿刺引流术与开颅血肿清除术用于治疗老年性基底节区脑出血的疗效。方法本研究选取2015年2月至2018年2月本院手术治疗的老年高血压性基底节区脑出血患
激励信号频率是影响高频电容式土壤水分传感器性能的重要因素。利用去离子水和2—异丙氧基乙醇(2—isoproxyethanol)或二氧六环(dioxane)2种溶液混合,配制了一系列等效土壤体
对云南南坡铜矿两种砂岩进行了单轴压缩试验,并利用SDAES型数字声发射仪测试了加载过程中的声发射活动。结果表明,岩石的变形与声发射活动存在较好的对应性;声发射活动也受岩
本文以Fe(NO3)3.9H2O和Bi(NO3)3.5H2O为反应原料,以KOH为矿化剂,利用水热方法在矿化剂浓度4.5mol/L至12.0mol/L区域内制备出钙钛矿结构的BiFeO3粉体材料。经过XRD慢扫(扫描速
光纤液滴指纹图是以利用光学方法检测液体特征参量为目的,并通过计算机分析在液滴下降过程中的光强变化曲线。在实验中利用光纤液滴传感器测试了多种中药制剂的不同体积分数
分析了Thompson模型和REV模型计算地层因素F的方法及适用性,认为两种模型计算的地层因素与岩电实验测量的地层因素相比,整体精度不高,但REV模型计算的精度优于Thompson模型.
利用土壤的介电特性测量土壤含水量是一种快速、简便、可靠的方法。根据频域反射(FDR)法测量原理,电磁波在土壤中的传播频率可用来测试土壤的介电常数,从而得到土壤容积含水
针对水文地质钻探现场中通过人工捞砂处理泥浆的低质低效问题,石油等领域结构复杂、体积庞大、功耗巨大的固控设备无法直接移植借鉴,现今大多数解决方案仅仅是在泥水分离方法
世界卫生组织和我国中医药管理局联合举办的国际传统医药大会,于1991年10月18日至22日在北京召开。大会收到21个国家和地区的学术论文2218篇,并编印了35篇论文摘要。本刊特转
助产士主导的孕产期连续照护模式是指助产士通过监测孕妇及其家庭在整个分娩过程中的生理、心理、精神及社会健康,为孕妇提供个体化的教育、咨询及产前照护,并在分娩前、产时