论文部分内容阅读
随着智能高速铁路时代的到来,基础设施、旅客和列车之间将会建立越来越多的互联互通链路,列车自动驾驶、铁路物联网成为了潜在应用。未来高速列车尤其是城际列车将实现“高密度、大容量、小编组、公交化”的运输组织模式,列车分布将更加密集化,引入人工智能、5G等技术的高速铁路通信将更加安全可靠。高速铁路的高机动性使其对时延的要求更加严格,5G推崇的终端直连通信技术(Device-to-Device,D2D)和移动边缘计算(Mobile Edge Computing,MEC)技术能够有效地减少终端到基站或云服务器的时延损耗,提高用户的服务质量。高速铁路通信中,有限的资源与不断增涨的业务需求之间的矛盾日益突出,急需研究适用于高动态性场景的资源分配算法。本论文依托于国家自然基金创新群体项目(项目批准号:6182001)和国家自然基金重点项目(项目批准号:61531007),针对高速移动通信场景下的资源分配问题展开研究。本论文考虑将D2D通信技术和MEC技术应用于高速铁路通信的列车与列车通信(Train-to-Train,T2T)场景和列车与基础设施通信(Train-to-Infrastructure,T2I)场景中。传统的资源分配算法多为集中式且迭代时间较长,在高动态环境下其实效性难以保证,为了高效可靠地满足不同场景下的业务需求,本文基于深度强化学习,提出了合理的分布式资源分配算法以提高系统性能。具体创新工作总结如下:(1)高速铁路通信中T2T链路的主要需求是安全信息的周期性共享,其中T2T链路与T2I链路共享频谱资源以提高频谱利用率,为了满足T2T链路可靠性需求与时延需求的同时减少对T2I链路的干扰,本文提出了一种基于深度强化学习的深度双Q网络(Double Deep Q-Network,DDQN)资源分配算法,T2T链路作为智能体能够根据其本地观测的信道状态和数据传输情况以分布式的方式选择频谱子带和发射功率,而不用等待网络的全局信息。模型在奖励函数的引导下的得到了合理的训练,仿真结果表明,所提出的算法与其他方案相比,能够保证T2T链路更高的传输成功率的同时缓和了对T2I链路的干扰,且算法具有鲁棒性,在不同传输数据量和移动速度下均能达到良好的性能。(2)高速铁路通信中T2I场景主要承载着高数据量的计算需求,为了按需给列车与乘客生成的计算任务提供资源访问,MEC服务器被搭载在了基站和无人机上。为了使尽可能多的计算任务在满足服务质量(Quality of Service,QoS)的前提下完成,本文提出了一种基于深度强化学习的多智能体深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)资源分配算法。其中,多个MEC服务器被视为智能体,可以仅根据其本地观测的列车位置及任务需求量以分布式的方式作出接入决策,并给每个时延需求不同的计算任务分配频谱资源、缓存资源和计算资源。仿真结果表明,所提出的算法与其他方案相比,具有更高的QoS满意率和资源占用率。