基于并行强化学习的建筑节能方法研究

来源 :苏州科技大学 | 被引量 : 1次 | 上传用户:Taurus_God
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在全世界范围内,建筑能耗在社会总能耗中占比较高,并且以较快速度在逐年增长,建筑节能已成为所有国家能源政策上的首要目标。建筑能耗的80%是建筑运行能耗,因此降低建筑能耗的有效手段是采取科学技术对建筑物内相关设备进行控制。此外,在建筑节能控制领域,传统控制方法通常存在稳定性差、收敛速度慢等问题。随着人工智能技术发展,智慧建筑节能的概念逐渐获得研究者的关注,相关智能化控制方法研究也成为了研究的热点,其中强化学习方法是目前智慧建筑节能方法的研究重点。本文主要以建筑节能问题为出发点,主要对基于强化学习的建筑节能控制方法及框架展开研究,具体内容包括以下三部分:(1)为解决建筑节能控制领域中强化学习控制方法在实际应用中收敛速度慢的问题,本文结合多线程技术和经验回放技术,提出一种多线程并行强化学习算法MPRL。MPRL主要由两部分构成,一是基于模糊聚类的强化学习多线程划分方法:通过模糊聚类的方式将策略向量分配到不同的线程中进行并行策略评估。二是并行强化学习框架:并行运行策略评估过程以及环境交互过程,同时引入经验回放技术,将交互中产生的样本存入样本池,利用样本反复更新Q值函数,该方法可有效加快算法学习过程。将MPRL与Q-Learning、Sarsa和KCACL算法进行对比,分别应用于random walk问题、windy grid world问题和cart pole问题中。实验数据表明,MPRL拥有更好的收敛性能和更快的学习速率。(2)对建筑节能控制问题进行马尔科夫决策过程建模,并提出一种基于强化学习的自适应控制方法RLAC,用于求解建筑物内相关设备的最优控制策略,达到节能的目的。RLAC首先对环境和强化学习信号进行建模,通过与环境进行交互,用Q-Learning算法更新Q值函数,算法可以收敛到最优Q值函数,从而学习到最优控制策略。通过仿真房间模型的实验,将RLAC与传统控制方法进行对比,实验结果表明所提出的RLAC方法具有一定的节能性、更快的收敛速度和更好的稳定性。(3)结合面向建筑节能的马尔科夫决策过程模型,将并行强化学习方法用于建筑节能问题,并提出一种基于并行强化学习的建筑节能方法。该方法结合多线程技术和经验回放技术提出多线程并行强化学习算法框架,通过计算样本之间的距离,选取低相似度的样本构造多样性样本池,Agent的学习过程是从多样性样本池中选取样本学习,可有效避免学习资源的浪费。该方法能有效提高算法学习效率、加速算法学习过程。实验包括在仿真房间模型上与Q-Learning算法以及经典PID控制方法的对比,结果表明,所提出的并行算法具有一定的节能效果,有更快的学习速率和收敛速度,并拥有更高效的运行效率。
其他文献
系统性红斑狼疮是一种慢性、多系统的自身免疫性疾病,能够影响育龄期女性的生殖健康。系统性红斑狼疮的发病过程贯穿围妊娠期各个环节,其对母体、胎儿的不良影响给临床医生提
会议
从历史学、社会学、考古学等方面分析陶瓷"非遗"相关工作的问题和解决策略,对河南省高校在陶瓷"非遗"保护、继承和协同创新等实践问题具有理论指导意义。
在电力行业中,电力通信设备众多,为保证通信设备安全可靠运行,需对各类设备运行状态进行巡检。传统的巡检工作需人工巡检,然而这种方式存在费时费力、巡检效率低、漏检等诸多
本文从翻译效应学角度,对《孙子兵法》的各种译文进行了介绍,认为翻译作为一种传播文化的手段,对文化交流、文化创新有一定的促进作用。
图书馆是大学生的第二课堂,大学生与图书馆工作人员、物业管理人员之间的关系对其精神文明素质的养成具有非常重要的作用。高校图书馆应从加强规章制度建设、提高图书馆工作
通过“课证赛岗”融合,在专业课程建设、教学模式、教学方式上探索理论与实践的有效结合,使车辆工程专业课程体系与教学内容高度契合行业职业能力要求。以全面提高学生自我学
气象服务效益评估是我国气象工作中一种十分重要的工作内容,但对于我国气象预报工作人员来说,也是一个具有极大难度的课题。就理论概念来说,气象服务效益不仅仅包含了气象信
<正>ATP敏感性钾离子通道(ATP-sensitive potassium channel,KATP通道)联系细胞代谢与细胞的电活动,KATP通道在神经细胞兴奋性调控、缺血损伤保护等生理、病理过程中发挥了重