论文部分内容阅读
在全世界范围内,建筑能耗在社会总能耗中占比较高,并且以较快速度在逐年增长,建筑节能已成为所有国家能源政策上的首要目标。建筑能耗的80%是建筑运行能耗,因此降低建筑能耗的有效手段是采取科学技术对建筑物内相关设备进行控制。此外,在建筑节能控制领域,传统控制方法通常存在稳定性差、收敛速度慢等问题。随着人工智能技术发展,智慧建筑节能的概念逐渐获得研究者的关注,相关智能化控制方法研究也成为了研究的热点,其中强化学习方法是目前智慧建筑节能方法的研究重点。本文主要以建筑节能问题为出发点,主要对基于强化学习的建筑节能控制方法及框架展开研究,具体内容包括以下三部分:(1)为解决建筑节能控制领域中强化学习控制方法在实际应用中收敛速度慢的问题,本文结合多线程技术和经验回放技术,提出一种多线程并行强化学习算法MPRL。MPRL主要由两部分构成,一是基于模糊聚类的强化学习多线程划分方法:通过模糊聚类的方式将策略向量分配到不同的线程中进行并行策略评估。二是并行强化学习框架:并行运行策略评估过程以及环境交互过程,同时引入经验回放技术,将交互中产生的样本存入样本池,利用样本反复更新Q值函数,该方法可有效加快算法学习过程。将MPRL与Q-Learning、Sarsa和KCACL算法进行对比,分别应用于random walk问题、windy grid world问题和cart pole问题中。实验数据表明,MPRL拥有更好的收敛性能和更快的学习速率。(2)对建筑节能控制问题进行马尔科夫决策过程建模,并提出一种基于强化学习的自适应控制方法RLAC,用于求解建筑物内相关设备的最优控制策略,达到节能的目的。RLAC首先对环境和强化学习信号进行建模,通过与环境进行交互,用Q-Learning算法更新Q值函数,算法可以收敛到最优Q值函数,从而学习到最优控制策略。通过仿真房间模型的实验,将RLAC与传统控制方法进行对比,实验结果表明所提出的RLAC方法具有一定的节能性、更快的收敛速度和更好的稳定性。(3)结合面向建筑节能的马尔科夫决策过程模型,将并行强化学习方法用于建筑节能问题,并提出一种基于并行强化学习的建筑节能方法。该方法结合多线程技术和经验回放技术提出多线程并行强化学习算法框架,通过计算样本之间的距离,选取低相似度的样本构造多样性样本池,Agent的学习过程是从多样性样本池中选取样本学习,可有效避免学习资源的浪费。该方法能有效提高算法学习效率、加速算法学习过程。实验包括在仿真房间模型上与Q-Learning算法以及经典PID控制方法的对比,结果表明,所提出的并行算法具有一定的节能效果,有更快的学习速率和收敛速度,并拥有更高效的运行效率。