论文部分内容阅读
无线通信与电子技术的发展使得小体积、低功耗传感器的应用更加广泛,能够在军事、医疗等领域实现信息采集、数据采集等功能。无线传感器网络由大量随机分布在某一特定领域内的传感器节点组成,具有自组织特性,各节点可协同完成网络覆盖范围内的各类特定任务,如目标追踪、环境监测等。在传统无线传感器网络中,传感器由电池供电。但由于传感器自身的体积尺寸限制,可携带的电池容量有限;尤其在不便于充电或更换电池的应用场景中,电量耗尽意味着该节点将永久停止工作,这对于网络的正常运行十分不利,因此解决能量问题成为延长网络寿命、提升网络性能的一个关键。为了打破这一瓶颈,能量收集技术在无线传感器网络中的应用受到广泛关注。常见的可收集利用的环境能源包括太阳能/光能、电磁能等。尽管此类能源能够为传感器提供无限的能量供应,其收集条件受到环境、时间等限制,在利用过程中必须考虑能量的随机特性。因此,传统网络解决方案不再适用于能量收集无线传感器网络,如何高效地管理收集到的能量成为能量收集无线传感器网络的重要研究内容。传感器应用的另一瓶颈在于其有限的通信范围。当网络覆盖范围远大于节点通信范围时,位于远处的节点无法与融合中心直接通信。有效的解决方案是采用协作通信方式,即通过多跳传输扩大节点通信范围,其重点在于中继节点的选择。对于大规模能量收集无线传感器网络中地理位置不同的节点,其能量收集条件也不同,因此中继节点的选择策略不仅需要考虑信道条件、节点位置、数据队列长度等,还要考虑能量收集情况。为解决环境能源与无线信道的动态特性给中继选择带来的挑战,在实际网络的中继选择方案设计过程中引入了强化学习算法。强化学习隶属于机器学习领域,其核心思想是智能体通过与未知环境的交互,从反馈中学习到能给个最大化长期奖励的最佳策略,是一种无模型算法。本文针对大规模能量收集无线传感器网络的中继选择问题,提出了基于强化学习算法的有效解决方案,实现网络可靠性提升、传输时延降低、能量效率提高的目标。本文的研究对象是适用于大规模能量收集无线传感器网络的分布式机会中继选择方案。中继选择策略主要分为两类:传统中继与机会中继。传统中继方案基于点对点通信方式实现,数据包沿着既定路径由源节点传输至目的节点;然而,既定路径的规划需要网络拓扑的相关知识,传统中继方案不适用于具有动态特性的大范围无线网络。反之,机会中继方案充分利用了无线传输的广播特性,在数据传输阶段开始之前,源节点向中继候选集合广播中继请求并从中选择一个最佳中继节点。机会中继方案的优势在于某一范围内的所有节点均有机会成为中继,无需事先获取网络拓扑结构,并且中继节点的选择能够随着环境变化而变化,适用于大规模无线网络。此外,机会中继方案更适用于能量收集网络,原因在于当能量耗尽时节点进入睡眠状态,若采用传统中继方案,与睡眠节点相关的传输路径将无法正常工作,从而造成网络拥塞与数据丢失。相比于集中式中继选择方案,分布式方案能够赋予每个源节点独立选择中继节点的能力,而无需由中央控制中心进行统一决策,更加适合大规模网络,具有更好的稳定性与可扩展性。本文的研究目的是设计有效的中继选择方案以实现网络可靠性提升、传输时延降低、与能量效率提高的目标,同时降低方案的计算复杂度。在能量收集网络中,为了更加高效地利用收集到的能量,节点通常配备能量缓存器。能量缓存器的能量一方面因数据传输等节点活动而被消耗,一方面由环境能源进行补充,即,节点的能量水平是波动的。若源节点选择能量较少的节点作为中继,则该节点可能因能量耗尽而进入睡眠状态,从而导致数据丢失;相应地,当能量较多的节点的能量缓存器被充满时,随后到达的能量将会被丢弃,从而导致能量浪费。因此,能量效率是评价一个中继选择方案的重要性能指标之一。此外,为了满足日益增长的数据服务和多样化应用场景需求,国际电联无线电通信部门界定了国际移动通信的未来发展框架和总体目标,其中之一就是超可靠和低延迟通信技术。因而,网络可靠性和传输时延也是本文的研究目标。在一个中继选择方案中,网络可靠性、传输时延与能量效率三个性能指标通常相互关联。例如,当源节点选择距离目的节点较远、剩余能量较多的节点作为中继时,网络可靠性将会提升,然而传输时延将会增加,能量效率将会降低。部分中继选择方案以单一性能参数为优化目标进行设计,如选择具有最佳信道条件的节点以最小化中断概率;另一部分方案在此基础上做出改进以实现不同性能间的平衡,如将能量充足的节点纳入候选集合并从中选择能够最大化吞吐量的节点作为中继;但同时以可靠性、传输时延和能量效率等多个性能参数为优化目标的中继选择方案设计仍是一个复杂问题。由于传感器节点受到存储资源与数据处理能力的限制,方案的计算复杂度也是本文需要考虑的问题之一。针对大规模能量收集无线传感器网络的中继选择问题,本文提出了基于强化学习的多特征中继选择方案。为了更加准确地描述实际的大规模能量收集无线传感器网络,网络的多个特征,包括数据队列长度、能量水平、信道条件和位置信息,均被建模为马尔可夫决策模型的多个状态。除了提升网络可靠性这一首要目标之外,降低传输时延和提高能量效率同样被考虑在内,后两者可以通过惩罚约束来控制。因此,大规模能量收集无线传感器网络的中继选择问题被建模为受约束的马尔可夫决策模型。基于强化学习中行动者-评价者算法的思想,本文针对上述模型提出了一种新的解法,并结合线性函数近似法来解决连续状态空间的问题。此外,本文还应用了拉格朗日乘子法以满足传输时延约束和能量效率约束。该方案可由各个源节点独立执行,源节点基于当前环境和先前经验选择最佳中继节点,有效地学习环境的动态特性并快速做出反应;不仅避免了传统的基于计时器的方案中计时器带来的时延问题,也避免了基于表格式学习算法的方案带来的表格存储与维护问题,更加适用于大规模能量收集无线传感器网络。通过对计算复杂度的分析,可以得出,本文所提出的算法具有较低的计算复杂度,适合于实际应用。仿真结果表明,相比于传统的基于计时器的方案和基于Q学习算法的方案,本文所提出的基于行动者-评价者算法的多特征中继选择方案能够同时实现提升网络可靠性、降低传输时延、提高能量效率的目标。在对上述网络进行研究的基础上,即构成网络的传感器节点被固定在二维监测区域内,本文进一步研究了三维空间内移动能量收集无线传感器网络的中继选择问题。由于节点的移动性,该网络的拓扑结构是变化的、不稳定的。若源节点仍根据先前存储的中继候选节点的状态信息进行选择,所选的中继节点可能不是最佳中继节点。对于源节点而言,先前时刻学习到的知识在当前选择过程中可能并没有用处,例如上一时刻选择的中继节点在当前时刻移动出了源节点的通信范围。一种解决办法是将所有潜在的候选节点的状态信息全部存储的源节点中,然而这将是一笔很大的开销,尤其在大规模网络中。因此,本文提出了一种基于学习自动机的可靠的中继选择方案。在该方案中,源节点按照某一概率分布进行中继选择,根据环境的反馈信息更新该概率分布,而无需存储大量的候选节点的状态信息,大大减少了由于信息交换和存储带来的资源消耗。仿真结果表明,本文提出的基于学习自动机的中继选择方案能够有效提高网络的可靠性,为移动场景下的传感器节点提供可靠的通信保障。