基于生成对抗网络的带多类样本模仿学习方法研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:d632709901
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能领域日益关注如何获得与人类相近甚至超越人类的决策模型。模仿学习是解决决策问题的一种可行方法。模仿学习是指从专家的决策数据中学得到接近专家的决策模型。基于生成对抗网络的模仿学习方法(Generative Adversarial Imitation Learning,GAIL)是一种新兴的模仿学习方法。其特点是具有很好的鲁棒性、感知能力和计算效率,它能够处理复杂的大规模问题。然而,GAIL对专家数据样本有很强的假设限制。它假设专家样本来自单一专家、并且是正确的。在许多实际问题中,由于专家个体不同以及存在失误的可能性,前述假设难以满足。针对该问题,本文放宽了 GAIL专家样本的假设限制,提出了两种在带有多类专家样本情况下的模仿学习方法,从而使算法能够应用于更为实际的问题。具体研究内容分为以下两个部分:(1)基于带辅助分类器生成对抗网络的模仿学习方法。针对专家样本中存在多种类别样本情况,提出在原始基于生成对抗网络的模仿学习方法基础上引入一个分类器,进而提出了基于带辅助分类器生成对抗网络的模仿学习方法的训练算法。在模拟环境中的实验结果表明,该方法利用分类器辅助判别器有监督地学习样本的类别,使判别器能够感知样本的类别信息,从而实现在多类样本下的模仿学习。并且,相较于一种已有的无监督学习方法,该方法能够更为精确、有效地学习各类专家样本。(2)带失败样本的基于生成对抗网络模仿学习方法。专家样本中存在失败样本是专家样本存在多类样本的一种特殊问题。针对该问题,方法构建了一个记忆池来存储和回放失败样本,并利用重采样的方法重复利用失败样本。在此基础上,提出了带失败样本的基于生成对抗网络模仿学习方法的训练算法。通过重复利用失败样本,该方法不仅能够获得比专家更优的动作成功率,还能提高样本利用率。实验表明,该方法能处理专家样本既有成功样本又有失败样本这种特殊的带多类样本模仿学习问题。
其他文献
石油安全是国家能源安全战略的核心,是国家经济政治安全的重要组成部分。在国际油价不断波动的背景下,经济、政治等多方面的因素导致我国石油安全状态发生着变化。尤其是近十
本文使用酚醛树脂作为构筑单元,通过掺杂不同的原子现了材料的功能化。根据酚醛树脂基材料在吸附分离、环境、催化以及传感器等方面的应用需求,通过选用适当的合成途径,开展了材料物理和化学性质的调控研究,实现了杂原子掺杂的酚醛树脂基微球的可控合成。具体研究工作如下:(1)基于喷雾干燥和光引发可逆-加成断裂转移自由基聚合(RAFT)技术,成功制备了氮掺杂的多孔碳球。使用末端含羧基的三硫代碳酸酯的链转移试剂对酚
近年来,我国社会经济水平不断提升,科学技术随之进步,越来越多的科学技术被应用于各个领域,逐渐改变了人们的工作、生活、娱乐及出行方式,提升了人们的生活质量,促进了我国社
胆囊收缩素(CCK)是一种脑肠肽,在中枢和外周神经系统广泛分布。CCK参与许多重要生理和病理生理过程,包括行为学、焦虑、学习、记忆过程、疼痛等,为探讨CCK是否参与初级感觉信
海岸带作为海陆之间相互作用的过渡性地带,其生态环境极易受到自然变化和人类活动的影响。海岸线的位置、形态结构、利用方式、趋势走向等的时空演变既是对各种动力作用的响应,也是海岸带环境演变的直观体现。对海岸线的时空变化研究的目的是为了更好了解海岸带生态环境演化过程及其变化机理,为海岸带的可持续发展和规划提供科学合理的辅助决策依据。本研究基于遥感影像提取了南海华南大陆1988年、1998年、2008年和2
创业实践活动是课堂创业教育的丰富和延伸,能有效促进大学生创业能力的形成。美国的创业教育开发较早,大学生创业实践活动已形成了社会参与广泛、深入,高校发挥科研优势、专
本文以故障容错控制技术的原理为基础,针对船舶电站多机并联系统有功、无功及转速、电压之间的综合控制特点,经深入分析研究提出了故障容错控制技术在船舶电站多机并联系统中
顺利完成血液透析的首要条件是良好的血液循环通路的建立,一般首选自体动静脉内瘘,由于深静脉留置导管具有并发症少、风险低、易于操作、血流量大等优点,广为临床实践采用,既可以
结合国内外上市公司投资价值的背景,分析了市场、产业、公司的情况,对上市公司投资价值分析的方法进行了说明。主要目的在于通过对上市公司投资价值分析,找到适合的方法,使公
目的关节镜下清理术治疗骨性关节炎的效果及关节功能的影响。方法选取2018年1—9月份该科室收治的膝关节骨性关节炎患者76例,采用随机数字表法分为治疗组和对照组各38例,对照