基于强化学习的PSS最优控制策略的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hpp6855132
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长距离、大功率联络线的出现,使到发电机群间形成了弱的耦合关系。同时,为了改善发电机机端电压的稳定性以及系统稳定性而采用的高增益快速励磁调节器,使到系统产生的负阻尼更严重。当系统产生的负阻尼比发电机阻尼绕组、励磁绕组的正阻尼和机械阻尼大时,系统将会在扰动下出现低频振荡现象。随着我国大区域互联电网的形成,低频振荡已经成为了影响系统稳定性的首要因素。而电力系统稳定器(PSS)是目前使用最为广泛的抑制系统低频振荡的措施之一,电力系统稳定器PSS的参数整定是PSS设计过程中的一个难点,因此,非常有必要对PSS的最优控制策略进行研究,提高PSS的控制效果,确保电力系统的安全稳定运行。本文将研究一种新的人工智能算法——强化学习算法(RL)在电力系统稳定器优化的应用。首先,本文简单介绍了电力系统中低频振荡现象,阐述了低频振荡的概念及产生低频振荡现象的负阻尼机理解释,介绍了低频振荡现有的控制方法,重点介绍了电力系统稳定器(PSS)的研究现状,指出现有优化方法中存在的不足点,引出了利用强化学习算法来对PSS进行优化。其次,阐述了强化学习的概念及其框架,按照值函数的形式将强化学习分为折扣型强化学习和平均报酬型强化学习。介绍了一种折扣型强化学习的经典算法——Q-学习算法。然而,单步Q-学习仅利用了单步的经验来更新Q矩阵来求取最优策略,导致收敛速度慢。为了解决单步Q-学习收敛时间慢的问题,本文引入了Q(λ)学习算法。该算法采用了资格迹来获取控制器行为的频度和渐新度两种启发信息,从而有效利用了多步的经验来进行寻优,在收敛速度上由于Q-学习。折扣报酬模型只关注策略的近期行为,这可能导致算法收敛于次优解,而基于平均报酬模型的算法则注重全阶段的动作行为,本文引入了R(λ)学习。通过以上介绍,为下文的仿真研究奠定了理论基础。接着是本文的核心部分,本文提出两种PSS的优化方法:参数优化和利用强化学习控制器代替整个PSS结构。第三章中利用折扣型强化学习算法对参数进行优化,研究奖励函数对收敛效果的影响,并比较了两种算法的收敛性。第四章中基于折扣型强化学习算法,以强化学习控制器代替整个PSS结构。经过仿真比较,分析了两种算法的收敛性并在不同故障上分析了强化学习控制器的有效性。由于折扣因子的引入,折扣报酬型强化学习只关注策略的近期行为,这可能导致算法收敛于次优解。基于平均报酬模型的算法则注重全阶段的动作行为,平均报酬模型不用确定算法的折扣率,它的优化目标是获得平均期望报酬最大的最优策略。在第五章中,利用平均报酬型强化学习控制器来代替整个PSS结构,仿真结果表明,该算法优于折扣型强化学习算法。本论文的研究得到国家自然科学基金面上项目(50807016)、广东省自然科学基金项目(9151064101000049)的资助。
其他文献
背景肿瘤血管的生成对乳腺癌等肿瘤的生长、侵袭和转移有至关重要的作用。根据本课题组前期研究,核壳结构的双层纳米颗粒可以作为靶向共递送化疗药物和抗血管生成药物的载体
近年来,我国经济社会飞速发展,金融业逐渐成为经济市场的支柱产业,商业银行又在金融业中占据主体地位,股份制商业银行在我国商业银行中具有举足轻重的地位。新世纪以来,世界
21世纪语法研究的一个新动向是主张把以动词为代表的用言问题放在句子结构中以及句子与句子的关系中来加以研究,也就是说更加重视用言本身的结合能力。这一语法研究发展的新趋
<正>2017年6月26日,国家卫生计生委办公厅发布了《原发性肝癌诊疗规范(2017年版)》[1](简称新版规范),距离《原发性肝癌诊疗规范(2011年版)》(简称旧版规范)发布已6年。新版规范按照
自由观是马克思主义的核心价值观,我们要掌握马克思主义基本原理,领会马克思主义基本理论的精神,就必须深入理解马克思主义自由观。要理解马克思主义自由观就要把握好三个最
目的 :探讨眼眶特发性炎性假瘤的临床特点和治疗效果。方法 :回顾分析我中心自 1978年 1月到 1999年 12月收集的眼眶特发性炎性假瘤 2 0 9例。结果 :2 0 9例中 ,男 118例 ,女
目的分析探讨平板数字胃肠下结肠钡灌肠和排粪造影在便秘中的诊断价值。方法回顾性分析2015年5月至2016年4月我院的107例便秘患者临床资料,分析患者胃肠下结肠钡灌肠和排粪造
目的:研究麒麟菜海藻色素糖蛋白(seaweed pigment glycoprotein,SPG)对小鼠H22肝癌细胞增殖与凋亡的影响。方法:将不同浓度SPG与小鼠H22肝癌细胞共同培养,用MTT法测定癌细胞