论文部分内容阅读
长距离、大功率联络线的出现,使到发电机群间形成了弱的耦合关系。同时,为了改善发电机机端电压的稳定性以及系统稳定性而采用的高增益快速励磁调节器,使到系统产生的负阻尼更严重。当系统产生的负阻尼比发电机阻尼绕组、励磁绕组的正阻尼和机械阻尼大时,系统将会在扰动下出现低频振荡现象。随着我国大区域互联电网的形成,低频振荡已经成为了影响系统稳定性的首要因素。而电力系统稳定器(PSS)是目前使用最为广泛的抑制系统低频振荡的措施之一,电力系统稳定器PSS的参数整定是PSS设计过程中的一个难点,因此,非常有必要对PSS的最优控制策略进行研究,提高PSS的控制效果,确保电力系统的安全稳定运行。本文将研究一种新的人工智能算法——强化学习算法(RL)在电力系统稳定器优化的应用。首先,本文简单介绍了电力系统中低频振荡现象,阐述了低频振荡的概念及产生低频振荡现象的负阻尼机理解释,介绍了低频振荡现有的控制方法,重点介绍了电力系统稳定器(PSS)的研究现状,指出现有优化方法中存在的不足点,引出了利用强化学习算法来对PSS进行优化。其次,阐述了强化学习的概念及其框架,按照值函数的形式将强化学习分为折扣型强化学习和平均报酬型强化学习。介绍了一种折扣型强化学习的经典算法——Q-学习算法。然而,单步Q-学习仅利用了单步的经验来更新Q矩阵来求取最优策略,导致收敛速度慢。为了解决单步Q-学习收敛时间慢的问题,本文引入了Q(λ)学习算法。该算法采用了资格迹来获取控制器行为的频度和渐新度两种启发信息,从而有效利用了多步的经验来进行寻优,在收敛速度上由于Q-学习。折扣报酬模型只关注策略的近期行为,这可能导致算法收敛于次优解,而基于平均报酬模型的算法则注重全阶段的动作行为,本文引入了R(λ)学习。通过以上介绍,为下文的仿真研究奠定了理论基础。接着是本文的核心部分,本文提出两种PSS的优化方法:参数优化和利用强化学习控制器代替整个PSS结构。第三章中利用折扣型强化学习算法对参数进行优化,研究奖励函数对收敛效果的影响,并比较了两种算法的收敛性。第四章中基于折扣型强化学习算法,以强化学习控制器代替整个PSS结构。经过仿真比较,分析了两种算法的收敛性并在不同故障上分析了强化学习控制器的有效性。由于折扣因子的引入,折扣报酬型强化学习只关注策略的近期行为,这可能导致算法收敛于次优解。基于平均报酬模型的算法则注重全阶段的动作行为,平均报酬模型不用确定算法的折扣率,它的优化目标是获得平均期望报酬最大的最优策略。在第五章中,利用平均报酬型强化学习控制器来代替整个PSS结构,仿真结果表明,该算法优于折扣型强化学习算法。本论文的研究得到国家自然科学基金面上项目(50807016)、广东省自然科学基金项目(9151064101000049)的资助。