基于深度强化学习的自动驾驶策略学习方法

来源 :集成技术 | 被引量 : 0次 | 上传用户：xvgpzz6h

【摘要】

：

自动驾驶是人工智能研究的重要应用领域,文章提出了一种基于深度强化学习的自动驾驶策略模型学习方法。首先采用在线交互式学习方法对深度网络模型进行训练,并基于专业司机的

【作者】

：

夏伟李慧云

【机构】

：

中国科学院深圳先进技术研究院,中国科学院大学深圳先进技术学院,

【出处】

：

集成技术

【发表日期】

：

2017年03期

【关键词】

：

深度强化学习自动驾驶聚类神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

自动驾驶是人工智能研究的重要应用领域,文章提出了一种基于深度强化学习的自动驾驶策略模型学习方法。首先采用在线交互式学习方法对深度网络模型进行训练,并基于专业司机的经验数据对模型进行预训练,进而结合经验池回放技术提高模型训练收敛速度,通过对状态空间进行聚类再采样,提高其独立同分布特性以及策略模型的泛化能力。通过与神经网络拟和Q-迭代算法的比较,所提方法的训练时间可缩短90%以上,稳定性能提高超过30%。以复杂度略高于训练集的测试道路长度为基准,与经验过滤的Q-学习算法相比,采用聚类再采样的方法可以使策略模型的平均行驶距离提高70%以上。

其他文献

特高压1100 kV GIS盆式绝缘子中心导体与绝缘盆体之间界面应力形成和作用过程讨论

特高压盆式绝缘子是气体绝缘封闭开关设备(GIS)中的重要部件,其典型的绝缘结构广泛存在于电力设备中。本文首先对水压破坏试验后特高压盆式绝缘子的破坏形态进行了分析,在水

期刊

特高压GIS盆式绝缘子界面效应切应力

4-6岁学龄前儿童公平行为和公平意图的发展研究

公平行为是儿童道德发展的重要内容。以往对公平行为的博弈研究，主要以成人被试为主，由于没有控制被试的年龄跨度和分配资源的类型及数量，关于公平行为的年龄效应和性别效应，目前

学位

独裁者博弈最后通牒博弈学龄前儿童公平行为公平意图

和谐在劳伦斯的小说中的体现

作为20世纪世界文坛的最伟大的巨匠之一,戴维.赫伯特.劳伦斯创作了大量的优秀文学作品。主要作品包括《虹》《恋爱中的女人》《查泰来夫人的情人》。他一生都致力于人与自然,

学位

平衡生态批评星际平衡原则

64m双线简支钢桁梁跨高速公路高位顶推施工技术

介绍了京石客运专线64 m钢桁梁采用长导梁高位顶推技术,即通过40 m长导梁及在公路外侧设置临时支墩,顺利实现大悬臂方式跨越高速公路。本文重点说明了工程中各阶段施工步骤和

期刊

临时支墩导梁顶推纠偏落梁

浅谈磁电机飞轮的动平衡

磁电机原始不平衡量由设计，机械加工，飞轮材质及动平衡辅具四方面造成，要真要提高磁电机飞轮的动平衡质量，须在飞轮制造过程中的各个环节上采取各种减少原始不平衡量。

期刊

磁电机飞轮动平衡

若SARS卷土重来,医院是否会面临人才流失的窘境?

<正> 今天,当大家在探讨SARS会不会卷土重来的时候,台湾的医院竟然面临缺人的窘境。此次抗疫工作中,更是曝露出卫生单位人力不足的状况。如台湾南部数一数二的大医院高雄医学

期刊

内科住院医师人才流失

CADWorx三维制图软件在医药化工设计中的应用

随着时代的发展,工业制造领域对于工程设计文件的要求不断升高,原有的二维工程设计软件已经不能满足工业发展的需要,3D制图软件的优势日益凸显并逐渐成为各大设计公司的主流

期刊

CADWorx三维医药化工

关于“十三五”期间创新创业、创新驱动发展的思考

文章在分析创新驱动与经济增长的关系，以及创新创业与创新驱动、经济增长的关系的基础上，提出“十三五”时期创新创业、创新驱动发展的政策建议：一是降低创新创业门槛，包括注册登

期刊

创新驱动发展创新创业经济增长“十三五”时期

振动测量仪在压力机飞轮动平衡中的应用

<正> 机械压力机的飞轮一般为铸件,由于铸造缺陷和机械加工缺陷,使飞轮零件的材料分布不均,造成飞轮在转动过程中产生不平衡,引起主机振动.这种振动对压力机零、部件的使用寿

期刊

振幅值压力机校正平面振动测量仪动平衡

解放思想，实事求是是建设有中国特色社会主义理论的精髓──学习《邓小平文选》第三卷的体会

解放思想，实事求是是建设有中国特色社会主义理论的精髓──学习《邓小平文选》第三卷的体会胡润《邓小平文选》第三卷是阐述建设有中国特色社会主义理论提出、形成和发展全过

期刊

毛泽东思想继承和发展马列主义建设有中国特色社会主义理论《邓小平文选》马克思主义社会主义初级阶段

基于深度强化学习的自动驾驶策略学习方法

其他学术论文