【摘 要】
:
强化学习能够让智能体自主地在环境中进行试错学习,是实现人工智能的重要途径之一。然而,目前的强化学习算法尽管在复杂游戏AI控制上已经取得了巨大的进步如Alpha Star和Open
论文部分内容阅读
强化学习能够让智能体自主地在环境中进行试错学习,是实现人工智能的重要途径之一。然而,目前的强化学习算法尽管在复杂游戏AI控制上已经取得了巨大的进步如Alpha Star和Open AI Five等,但还需要消耗海量的计算资源和超长的训练时间;另外,对于电商之类的现实问题,由于智能体在其线上环境中试错的代价高昂,强化学习方法仍然难以高效地应用于这些场景。本文针对这两个方面的核心问题展开相关研究,取得了如下成果:1、对于星际争霸II这类状态动作空间巨大的复杂游戏,本文提出了结合两层抽象的高效分层强化学习框架。其下层抽象是从专家对局数据中提取的宏动作,能够将动作空间减少数个数量级且保证其有效性;上层抽象是层次化的策略网络结构,由高层策略在固定时间间隔下调用不同的子策略来完成任务,这样有利于的模块化训练和使用。最终,在64*64的地图和有限游戏单位的条件下,本文仅利用一台拥有4块GPU卡和48个CPU核的机器对整个框架模型训练12小时,就实现了对战难度1的内置机器人超过99%的胜率,之后再通过课程迁移学习算法和混合的战斗模型训练1天,实现了对战非作弊下的最高难度(难度7)的内置机器人超过93%的胜率。2、对于电商排序这类在线上环境试错代价高昂的现实问题,本文提出了基于评估器-生成器架构的排序学习方法EG-Rerank。它利用海量用户浏览数据来构建相对可信的评估器,再在评估器的指导下使用强化学习方法来训练生成器,使其生成的排列在评估器中的总得分更高。同时,考虑到评估器的泛化问题,本文在训练生成器过程中增加了判别器的对抗训练,使得生成器生成的新排列分布尽量接近原始的排列分布。经过在国际大型电商平台Aliexpress中一周的线上测试,本文提出的方法EG-Rerank能够在商品的购买转化率上稳定地比目前工业界中效果最好的pairwise类重排方法提高2%以上。
其他文献
自人类在深海极端环境区域发现微生物群落,海底冷泉生态群落调查研究就成为地球科学及生命科学研究的热点。深海冷泉流体中蕴藏着丰富的、有科学研究意义的信息,采集分析其成
作为人类目前所知最强的纤维,碳纳米管可以用作金属基复合材料的增强相,这为提高材料的性能带来了新的机遇。超顺排碳纳米管(SACNT)薄膜作为一种连续的二维材料,碳纳米管排列方向的高度一致性可为基体的增强带来更大的优势。本文以电镀法制备的SACNT/Cu复合材料作为原材料,采用累积叠轧与其他工艺相结合的方法,制备出高强高导SACNT/Cu、SACNT增强铜锌合金以及SACNT增强纳米多孔铜等一系列复合
国家发展纲要《中国制造2025》中指出要组织研发智能化生产线,提高智能制造的工程化和产业化。实现生产线的智能化能进一步提升我国的工业制造能力。在汽车门板智能超声波焊
本文是在工程实践中做出的相关研究,以螺旋片焊接加工工程应用为背景,结合当前NURBS曲线拟合与插补理论研究进行实验。在螺旋片焊接加工时,针对存在的不规则焊接路径工况,结
面部表情在日常生活中扮演着重要的角色,通过它传递的信息量远远多于语言和语音。如今人机交互越来越频繁,理解人的情感并自然地与人交互也是未来机器人发展的必然方向。而且
森林旅游(Forest Recreation)是以森林风景资源为基础,进行自然观赏、养生健身、娱乐休闲等活动,是生态旅游的重要体现。森林旅游资源是森林旅游发生的主体,包括了森林自然资
理解软材料的力学行为在生物医学工程、材料工程以及软物质物理等研究领域受到广泛关注。表征软材料的时间相关力学性能对于理解它们在各种激励下的变形行为至关重要。本文主要研究表征软材料局部粘弹性特性的压痕蠕变实验方法。通过量纲分析、有限元仿真和仿体实验,发展了表征生物软材料特征蠕变函数的压痕实验方法,并据此开发了低成本的便携式蠕变压痕仪。首先,基于量纲分析和弹性-粘弹性对应原理,对蠕变压痕实验进行了理论分
全张量磁梯度数据具有更大的信息量和更高的分辨率,能够更准确地描述磁性目标的磁化方向,进而实现磁性目标的检测。目前基于全张量磁梯度数据的目标检测技术已经广泛的应用于
花蓟马Frankliniella intonsa是一种重要的农作物害虫,广泛分布于我国和世界各地,每年可造成巨大的经济损失。由于花蓟马生殖能力强,发育历期短,个体小,易于隐藏,单一的化学
类风湿性关节炎(RA)是一种慢性炎性的自身免疫性疾病,主要表现为关节滑膜炎及关节病变。病变的炎症部位具有类似肿瘤血管的通透增强与滞留效应(EPR)。脂质体和纳米粒已广泛用于RA的靶向治疗。本课题以他克莫司(FK506)为模型药物,以卵磷脂和大豆磷脂(SPC)为脂质材料,加入适量的胆固醇(Chol)和增溶剂维生素E聚乙二醇琥珀酸酯(TPGS)制备FK506脂质体,并以新型两亲性高分子材料聚乙烯己内酰