面向软件自适应演化中的强化学习方法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wyxxzh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在金融管理、空中交通管制、通信网络管理等领域存在很多复杂问题,单个Agent解决不了,因为资源或者能力有限,而多Agent系统提供了解决这些问题的可能。但随着科学技术的发展,软件结构向大型复杂转变并呈现出分布式特征,软件的运行环境也从静态封闭走向动态开放,这些新的变化对软件提出了更高的要求,要求软件必须具备自适应的能力,即当环境发生变化时,系统通过调整自身的结构或行为策略仍能正常运行。学习作为自适应的重要技术也备受关注,但常规的学习方法由于需要人直接参与或者间接参与(包括预先指定动作策略或效用策略),要求系统设计者在设计阶段描述所有的系统行为和环境状态,对系统设计者要求太高而且往往难以实现。强化学习非常适用于没有太多环境信息的问题域,因为在该方法中详细的环境模型不是必须的,因此如何将强化学习应用到软件自适应演化中,是当前研究的热点与难点。  本文主要研究将强化学习方法应用到软件自适应演化中。首先给出一种基于Agent的软件自适应演化支撑框架,并详细阐述了该框架的结构和工作机制。接着给出了Agent分层组织结构和Agent模型,并给出环境形式化定义及Agent模型中核心模块的详细设计,阐述Agent学习工作过程。在此基础上,给出多Agent强化学习方法的框架,利用该框架设计能根据实时交通状况调整策略的交通灯控制Agent,并重点阐述Q-学习方法的设计与实现。最后,通过典型应用案例,对本文提出的多Agent强化学习方法进行验证。
其他文献
汽车业供应链是由客户、生产企业与零部件供应商组成的一个庞大网络,一个完成的供应链管理系统可以改进企业间的协作机制和供求关系,为企业提供直接的市场信息和广阔的销售渠道
网格被誉为继Internet和Web之后的第三次信息技术浪潮,借鉴了现有的电力网的思想,它试图实现互联网上所有资源的连通,即把整个互联网整合成一台巨大的超级计算机,包括计算资源、
全光传输网络以其稳定性好和传输容量大等优点,正迅速成为带宽需求较大的下一代通信网络主要发展方向之一。基于波分复用(Wavelength DivisionMultiplexing-WDM)技术,可以在一
生产调度是冷轧板材生产的枢纽,调度的合理性、准确性、及时性都直接影响了整个生产组织有序性、连续性、产能高低、产品质量好坏,以及企业应对市场变化的能力高低。在信息技
近年来,随着计算机的普及和Intemet的飞速发展,地理信息系统在房地产管理、汽车GPS自动导航、三维虚拟现实仿真等领域得到广泛应用,并具有越来越大的市场。这些应用都需要空间数
随着各种覆盖网系统规模和数量的剧增,它们独立探测底层网络性能对网络资源造成的浪费,以及独自选路导致的路由抖动和不公平性等问题日渐受到人们的重视。承载网(Underlay)是为
随着计算机网络和通信技术的飞速发展,网络环境已经从早期相对静态的、面向特定组织和用户群体的封闭网络,转变为可公共访问的、面向大量动态用户的开放网络,其主要应用领域包括
流数据查询是流数据处理中一个非常重要的研究领域,由于流数据到来的快速性和大量性等特点,必须及时地对流数据进行处理,流数据的输入速率突然剧增会使查询系统发生过载,将严重影
随着数据挖掘研究的深入,越来越多的问题呈现在我们面前,也提出了更高的要求。当前,复杂类型数据的挖掘需求上升,专家学者开始关注这方面的新应用和理论研究,并试图利用结构化数据
DNA计算以其海量存储和并行运算能力,从理论上可克服电子计算机存储量与运算速度上的不足,成为NP完全问题和其它难解问题的潜在解决方案之一,并且在理论上已成功的在多项式时