基于强化学习的能量收集无线传感器网络中继选择方案

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:houtou27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无线通信与电子技术的发展使得小体积、低功耗传感器的应用更加广泛,能够在军事、医疗等领域实现信息采集、数据采集等功能。无线传感器网络由大量随机分布在某一特定领域内的传感器节点组成,具有自组织特性,各节点可协同完成网络覆盖范围内的各类特定任务,如目标追踪、环境监测等。在传统无线传感器网络中,传感器由电池供电。但由于传感器自身的体积尺寸限制,可携带的电池容量有限;尤其在不便于充电或更换电池的应用场景中,电量耗尽意味着该节点将永久停止工作,这对于网络的正常运行十分不利,因此解决能量问题成为延长网络寿命、提升网络性能的一个关键。为了打破这一瓶颈,能量收集技术在无线传感器网络中的应用受到广泛关注。常见的可收集利用的环境能源包括太阳能/光能、电磁能等。尽管此类能源能够为传感器提供无限的能量供应,其收集条件受到环境、时间等限制,在利用过程中必须考虑能量的随机特性。因此,传统网络解决方案不再适用于能量收集无线传感器网络,如何高效地管理收集到的能量成为能量收集无线传感器网络的重要研究内容。传感器应用的另一瓶颈在于其有限的通信范围。当网络覆盖范围远大于节点通信范围时,位于远处的节点无法与融合中心直接通信。有效的解决方案是采用协作通信方式,即通过多跳传输扩大节点通信范围,其重点在于中继节点的选择。对于大规模能量收集无线传感器网络中地理位置不同的节点,其能量收集条件也不同,因此中继节点的选择策略不仅需要考虑信道条件、节点位置、数据队列长度等,还要考虑能量收集情况。为解决环境能源与无线信道的动态特性给中继选择带来的挑战,在实际网络的中继选择方案设计过程中引入了强化学习算法。强化学习隶属于机器学习领域,其核心思想是智能体通过与未知环境的交互,从反馈中学习到能给个最大化长期奖励的最佳策略,是一种无模型算法。本文针对大规模能量收集无线传感器网络的中继选择问题,提出了基于强化学习算法的有效解决方案,实现网络可靠性提升、传输时延降低、能量效率提高的目标。本文的研究对象是适用于大规模能量收集无线传感器网络的分布式机会中继选择方案。中继选择策略主要分为两类:传统中继与机会中继。传统中继方案基于点对点通信方式实现,数据包沿着既定路径由源节点传输至目的节点;然而,既定路径的规划需要网络拓扑的相关知识,传统中继方案不适用于具有动态特性的大范围无线网络。反之,机会中继方案充分利用了无线传输的广播特性,在数据传输阶段开始之前,源节点向中继候选集合广播中继请求并从中选择一个最佳中继节点。机会中继方案的优势在于某一范围内的所有节点均有机会成为中继,无需事先获取网络拓扑结构,并且中继节点的选择能够随着环境变化而变化,适用于大规模无线网络。此外,机会中继方案更适用于能量收集网络,原因在于当能量耗尽时节点进入睡眠状态,若采用传统中继方案,与睡眠节点相关的传输路径将无法正常工作,从而造成网络拥塞与数据丢失。相比于集中式中继选择方案,分布式方案能够赋予每个源节点独立选择中继节点的能力,而无需由中央控制中心进行统一决策,更加适合大规模网络,具有更好的稳定性与可扩展性。本文的研究目的是设计有效的中继选择方案以实现网络可靠性提升、传输时延降低、与能量效率提高的目标,同时降低方案的计算复杂度。在能量收集网络中,为了更加高效地利用收集到的能量,节点通常配备能量缓存器。能量缓存器的能量一方面因数据传输等节点活动而被消耗,一方面由环境能源进行补充,即,节点的能量水平是波动的。若源节点选择能量较少的节点作为中继,则该节点可能因能量耗尽而进入睡眠状态,从而导致数据丢失;相应地,当能量较多的节点的能量缓存器被充满时,随后到达的能量将会被丢弃,从而导致能量浪费。因此,能量效率是评价一个中继选择方案的重要性能指标之一。此外,为了满足日益增长的数据服务和多样化应用场景需求,国际电联无线电通信部门界定了国际移动通信的未来发展框架和总体目标,其中之一就是超可靠和低延迟通信技术。因而,网络可靠性和传输时延也是本文的研究目标。在一个中继选择方案中,网络可靠性、传输时延与能量效率三个性能指标通常相互关联。例如,当源节点选择距离目的节点较远、剩余能量较多的节点作为中继时,网络可靠性将会提升,然而传输时延将会增加,能量效率将会降低。部分中继选择方案以单一性能参数为优化目标进行设计,如选择具有最佳信道条件的节点以最小化中断概率;另一部分方案在此基础上做出改进以实现不同性能间的平衡,如将能量充足的节点纳入候选集合并从中选择能够最大化吞吐量的节点作为中继;但同时以可靠性、传输时延和能量效率等多个性能参数为优化目标的中继选择方案设计仍是一个复杂问题。由于传感器节点受到存储资源与数据处理能力的限制,方案的计算复杂度也是本文需要考虑的问题之一。针对大规模能量收集无线传感器网络的中继选择问题,本文提出了基于强化学习的多特征中继选择方案。为了更加准确地描述实际的大规模能量收集无线传感器网络,网络的多个特征,包括数据队列长度、能量水平、信道条件和位置信息,均被建模为马尔可夫决策模型的多个状态。除了提升网络可靠性这一首要目标之外,降低传输时延和提高能量效率同样被考虑在内,后两者可以通过惩罚约束来控制。因此,大规模能量收集无线传感器网络的中继选择问题被建模为受约束的马尔可夫决策模型。基于强化学习中行动者-评价者算法的思想,本文针对上述模型提出了一种新的解法,并结合线性函数近似法来解决连续状态空间的问题。此外,本文还应用了拉格朗日乘子法以满足传输时延约束和能量效率约束。该方案可由各个源节点独立执行,源节点基于当前环境和先前经验选择最佳中继节点,有效地学习环境的动态特性并快速做出反应;不仅避免了传统的基于计时器的方案中计时器带来的时延问题,也避免了基于表格式学习算法的方案带来的表格存储与维护问题,更加适用于大规模能量收集无线传感器网络。通过对计算复杂度的分析,可以得出,本文所提出的算法具有较低的计算复杂度,适合于实际应用。仿真结果表明,相比于传统的基于计时器的方案和基于Q学习算法的方案,本文所提出的基于行动者-评价者算法的多特征中继选择方案能够同时实现提升网络可靠性、降低传输时延、提高能量效率的目标。在对上述网络进行研究的基础上,即构成网络的传感器节点被固定在二维监测区域内,本文进一步研究了三维空间内移动能量收集无线传感器网络的中继选择问题。由于节点的移动性,该网络的拓扑结构是变化的、不稳定的。若源节点仍根据先前存储的中继候选节点的状态信息进行选择,所选的中继节点可能不是最佳中继节点。对于源节点而言,先前时刻学习到的知识在当前选择过程中可能并没有用处,例如上一时刻选择的中继节点在当前时刻移动出了源节点的通信范围。一种解决办法是将所有潜在的候选节点的状态信息全部存储的源节点中,然而这将是一笔很大的开销,尤其在大规模网络中。因此,本文提出了一种基于学习自动机的可靠的中继选择方案。在该方案中,源节点按照某一概率分布进行中继选择,根据环境的反馈信息更新该概率分布,而无需存储大量的候选节点的状态信息,大大减少了由于信息交换和存储带来的资源消耗。仿真结果表明,本文提出的基于学习自动机的中继选择方案能够有效提高网络的可靠性,为移动场景下的传感器节点提供可靠的通信保障。
其他文献
卫星物联网(Satellite-based Internet of Things,S-Io T)能够突破现有地面网络仅覆盖20%左右陆地范围的局限,实现全球立体覆盖下的宽带接入。S-Io T已成为下一代移动通信的重要发展方向之一。本文面向未来S-Io T服务于地面终端的典型业务场景,综合考虑卫星受限的功率资源、星地长距离链路导致的大传播延时以及信号衰落,设计了基于网络编码(Network Codi
伴随着信息时代的发展,人们的数字娱乐生活越来越丰富,智能手机提高人们生活品质的同时也对无线数据业务的提出了新的要求。在第五代移动通信(Fifth-Generation Mobile Communication,5G)时代,移动无线网络不仅仅需要提供几十倍于4G(Fourth-Generation Mobile Communication)的峰值传输速度,更需要保证毫秒级的数据传输时延。当前的商用的
脑肿瘤又称脑胶质瘤、脑癌,是最具侵袭性的肿瘤之一,无论对患者的身体上还是心理上都威胁极大。核磁共振成像技术由于成像质量高,且对人体没有伤害,在临床上被广泛应用于肿瘤图像的采集。然而脑肿瘤图像十分复杂,不同肿瘤亚区的边界具有一定的模糊性,这使得脑肿瘤分割工作变得非常困难。当前主要是依靠医生或专家手动进行分割,不但效率低,而且医生在长期高强度的工作下可能会导致分割精度的下降。另外,为了能帮助医生进行临
多载波系统是当今水声通信的热点研究方向,其利用循环前缀(Cyclic Prefix,CP)拥有了优秀的抗多径性能,但是其采用的矩形窗带外衰减过慢,导致受多普勒效应干扰明显,且CP的使用也降低了系统的信息传输速率。水声信道复杂且变化快速,存在明显的多普勒效应,后者极大限制多载波通信技术在水声通信中的应用。而滤波器组多载波(Filter Bank Multi-Carrier,FBMC)系统既有良好的抗
移动数据的爆炸式增长,给传统的蜂窝网络带来了前所未有的挑战。为了缓解海量无线流量带来的压力,边缘缓存技术成为了当下研究的热点。边缘缓存把部分网络内容放置在具有缓存能力的边缘节点中,可以在流量高峰时实现快速的内容分发,缓解传统蜂窝网络的流量压力。通常,这些边缘节点可以是基站或者是移动设备等。随着移动设备数量的飞速增加和移动设备中的存储介质成本逐渐降低,D2D(Device-to-Device)通信技
进入信息时代以来,网络中信息的数量以惊人的速度急剧增加。用户要在这些巨量的信息资料中准确找到所需的部分极其困难,如何利用计算机辅助用户过滤噪声数据,挖掘有用信息已经成为目前的研究热点。命名实体识别是利用计算机从自然语言文本中抽取出命名实体,为之后更高级的任务奠定基础。对于科研技术人员来说,经常需要从大量文献中寻找资料,而中文领域的命名实体识别研究目前还大多集中于通用领域,也就是新闻文本领域,涉及科
随着移动数据流量的爆炸式增长,现有的蜂窝通信系统在海量数据请求时所承受的负担日益严重。通过基站转发至核心网的通信模式已经无法满足5G时代对大容量、低时延、低功耗的用户体验需求。随着移动设备计算和存储能力的提升,将内容存储在移动设备中,采用设备到设备(Device-to-Device,D2D)通信技术进行信息传递的移动存储系统成为解决海量数据大规模并发请求的关键机遇。移动设备在电量耗尽或离开基站覆盖
近年来,随着近地轨道卫星的快速发展,卫星物联网(satellite-based internet of things,S-Io T)将为第五代(fifth generation,5G)移动通信以及下一代大规模机器类通信(massive Machine Type Communication,m MTC)提供经济高效的全球覆盖和宽带接入。然而,如何实现高效的m MTC仍然是一个开放难题。本文重点考虑S
随着各行各业数字化进程的不断加速,大规模分布式云存储系统中的数据量持续性爆发增长。针对廉价存储设备的失效问题,云存储系统通常采用编码方案实现修复,保证系统可用性。由于在修复单个故障时,连接节点少、修复磁盘I/O开销低,局部重构码(Local Reconstruction Code,LRC)适应云存储系统需求,已在微软公司Azure等云平台广泛应用。然而,数据呈现多元化发展趋势,热数据在系统中被频繁
说话人识别是根据说话人的语音特征进行身份识别的生物认证技术,具有便捷性、安全性和准确性等优势,目前被广泛应用于国防、金融和公共安全等领域。说话人识别主要由语音特征提取、模式匹配识别两部分组成,其中语音特征提取是整个说话人识别系统的核心,所提取的特征能否充分反映说话人的身份信息将直接关系着整个系统的性能。本文基于语音线性预测分析(Linear Prediction Coding,LPC)生成的残差信