论文部分内容阅读
随着通信用户的增多,传统的地面通信网络已无法满足人们对无线通信超可靠性、高服务质量、多样性的需求。无人机通信作为一种典型的空中通信手段,能够为用户提供高可靠性、高灵活性、易部署、低成本的通信服务,被视为未来空中网络解决方案和地面通信的补充。面向增强通信覆盖和应急通信的需求,单无人机中继和无人机集群基站是两个典型通信场景。资源管理是无人机通信系统中的一项关键技术,由于传统的无线资源管理技术根据完全且精确的环境状态信息推导出策略,不仅难以实现,而且计算复杂度高,还无法根据环境的变化改变策略。为此,本文面向无人机通信系统的两个典型通信场景,重点研究无线资源智能管理技术。首先,研究了基于强化学习的分层智能决策(Reinforcement Learning Based Hierarchical Intelligent Decision-Making,RLB-HIDM)架构,然后在这个架构的基础上,分别制定了单无人机中继和无人机集群基站的通信资源管理方案。针对单无人机中继通信链路的资源管理问题,提出了一种分三步的智能解决方案(Three-Step Intelligent Solution,TSIS)。面向无人机集群基站场景,针对无人机机间通信的资源管理问题,提出了基于快速强化学习的资源管理算法;针对无人机集群基站对地面用户通信的资源管理问题,提出了基于聚类辅助的多智能体强化学习(Clustering-Aided Multi-Agent Reinforcement Learning,CA-MARL)方案,使无人机通信系统能够以低复杂度实现智能、自主的动态资源管理。本文的主要研究贡献和创新点如下:(1)面向单无人机中继和无人机集群基站典型通信场景中的无线资源管理问题,本文研究了RLB-HIDM架构,并设计了每一层的决策方案。该架构与传统架构相比,不需要提前获知所处环境的每一个信息,仅需得到与环境交互的反馈,在尝试和错误中探索最优策略,因此能适应动态环境,此外计算复杂度远低于传统架构。(2)针对单无人机中继通信链路的发射功率与路径优化问题,提出了一种分三步的智能解决方案(TSIS),将高维度的联合决策转化为低维度的子问题。第一步进行降维,提出了基于模型参数重构的机器学习(Model Parameter Reconstructive Machine Learning,MPR-ML)算法完成无人机最优飞行高度部署;第二步设计了基于蚁群优化的无人机二维飞行轨迹,以低复杂度解决NP难问题;第三步提出了基于优先级采样双延迟深度确定性策略梯度(Prioritized Sampling Twin Delayed Deep Deterministic Policy Gradient,PS-TD3)的功率控制算法,使功率决策快速收敛到最优。仿真结果表明,所提方案和算法的决策性能、收敛速度和计算复杂度相比传统算法有明显优势。(3)针对无人机集群基站场景中机间通信的集群部署问题和功率优化问题,本文提出了基于深度Q网络(Deep Q-Network,DQN)的集群模式和发射功率联合决策算法,并提出了三种DQN的改进算法提升其收敛性。为了使集群模式和功率控制的联合决策能够适应环境的变化,本文分别提出了基于元深度Q学习(Meta Deep Q-Network,Meta-DQN)和基于模型价值扩展的深度Q网络(Model Value Expansion Deep Q-Network,MVE-DQN)的两种快速强化学习算法,与DQN算法相比,可大大减少收敛所需样本数,而且Meta-DQN算法可实现更小样本的学习,MVE-DQN算法能够以更高概率收敛到最优解,仿真结果验证了算法的有效性。(4)针对无人机集群基站对地通信的用户关联、节点部署、功率控制和时频资源块分配的联合优化问题,本文提出了CA-MARL方案,将高维度的联合优化问题解耦为三个子优化问题,分两个阶段解决,以较低的复杂度解决联合优化中的NP难问题。阶段一:预部署阶段,首先提出了基于改进期望-最大化(Modified Expectation-Maximization,MEM)的无监督聚类算法,将用户关联问题转换为无人机与用户簇匹配的问题,降低了决策维度,然后,研究了基于Kuhn-Munkres(KM)的无人机-簇匹配算法,完成用户关联和无人机节点的预部署。阶段二:无人机节点位置微调阶段,本文提出了多智能体双延迟深度确定性策略梯度(Multi-Agent Twin Delayed Deep Deterministic Policy Gradient,MATD3)算法决策无人机的飞行轨迹和发射功率,该算法以低偏差的Q值估计更易达到最优策略;提出了基于多智能体优势动作-评价(Multi-Agent Advantage Actor-Critic,MAA2C)的时频资源块的分配算法,优势更新的特点使训练更容易收敛,且能够有效抵抗典型干扰。仿真结果表明,本文所提CA-MARL方案能够以低复杂度达到较优的策略,并且MATD3和MAA2C性能优于传统强化学习算法。