基于深度强化学习的自动驾驶策略学习方法

来源 :集成技术 | 被引量 : 0次 | 上传用户:xvgpzz6h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶是人工智能研究的重要应用领域,文章提出了一种基于深度强化学习的自动驾驶策略模型学习方法。首先采用在线交互式学习方法对深度网络模型进行训练,并基于专业司机的经验数据对模型进行预训练,进而结合经验池回放技术提高模型训练收敛速度,通过对状态空间进行聚类再采样,提高其独立同分布特性以及策略模型的泛化能力。通过与神经网络拟和Q-迭代算法的比较,所提方法的训练时间可缩短90%以上,稳定性能提高超过30%。以复杂度略高于训练集的测试道路长度为基准,与经验过滤的Q-学习算法相比,采用聚类再采样的方法可以使策略模型的平均行驶距离提高70%以上。
其他文献
特高压盆式绝缘子是气体绝缘封闭开关设备(GIS)中的重要部件,其典型的绝缘结构广泛存在于电力设备中。本文首先对水压破坏试验后特高压盆式绝缘子的破坏形态进行了分析,在水
公平行为是儿童道德发展的重要内容。以往对公平行为的博弈研究,主要以成人被试为主,由于没有控制被试的年龄跨度和分配资源的类型及数量,关于公平行为的年龄效应和性别效应,目前
作为20世纪世界文坛的最伟大的巨匠之一,戴维.赫伯特.劳伦斯创作了大量的优秀文学作品。主要作品包括《虹》《恋爱中的女人》《查泰来夫人的情人》。他一生都致力于人与自然,
介绍了京石客运专线64 m钢桁梁采用长导梁高位顶推技术,即通过40 m长导梁及在公路外侧设置临时支墩,顺利实现大悬臂方式跨越高速公路。本文重点说明了工程中各阶段施工步骤和
磁电机原始不平衡量由设计,机械加工,飞轮材质及动平衡辅具四方面造成,要真要提高磁电机飞轮的动平衡质量,须在飞轮制造过程中的各个环节上采取各种减少原始不平衡量。
<正> 今天,当大家在探讨SARS会不会卷土重来的时候,台湾的医院竟然面临缺人的窘境。此次抗疫工作中,更是曝露出卫生单位人力不足的状况。如台湾南部数一数二的大医院高雄医学
随着时代的发展,工业制造领域对于工程设计文件的要求不断升高,原有的二维工程设计软件已经不能满足工业发展的需要,3D制图软件的优势日益凸显并逐渐成为各大设计公司的主流
文章在分析创新驱动与经济增长的关系,以及创新创业与创新驱动、经济增长的关系的基础上,提出“十三五”时期创新创业、创新驱动发展的政策建议:一是降低创新创业门槛,包括注册登
<正> 机械压力机的飞轮一般为铸件,由于铸造缺陷和机械加工缺陷,使飞轮零件的材料分布不均,造成飞轮在转动过程中产生不平衡,引起主机振动.这种振动对压力机零、部件的使用寿
解放思想,实事求是是建设有中国特色社会主义理论的精髓──学习《邓小平文选》第三卷的体会胡润《邓小平文选》第三卷是阐述建设有中国特色社会主义理论提出、形成和发展全过