论文部分内容阅读
随着5G万物互联时代的到来,移动边缘计算为移动设备的低时延服务提供了一种高效的解决方案。但是移动边缘计算中的资源分配问题仍然面临很多挑战。例如真实场景中需要服务大量的用户,每个用户又有多个决策变量,这将使得决策空间非常庞大。场景的复杂性导致资源分配问题不是凸优化问题,无法直接用最优化方法来解决。除此之外,资源分配问题是个时序决策问题,每个时刻都需要做出决策,并且优化目标应该是使得时延、能耗等综合性能达到长期最优。因此现有方法很难有效解决移动边缘计算中的资源分配问题。本文以移动边缘计算资源分配问题为研究点,以实现高效、高性能、通用性的资源分配算法为切入点,提出了基于蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)和深度神经网络(Deep Neural Network,DNN)的深度强化学习算法。包括基于长短期记忆网络改进的无人机边缘计算智能任务卸载算法(intelligent Task Offloading Algorithm,iTOA),基于多任务深度神经网络改进的协作移动边缘计算智能资源分配框架(intelligent Resource Allocation Framework,iRAF),以及基于隐藏空间推理的智能服务迁移算法(intelligent Service Migration Algorithm,iSMA)。本文的主要创新点包括:1.提出了一种基于MCTS+DNN的边缘计算资源分配算法。MCTS算法将高维决策空间切分为蒙特卡洛树的每一层。并通过逐层搜索、策略仿真、奖励回溯、选择性扩展等步骤使得策略搜索倾向于奖励较高的空间。这极大地降低了搜索空间的范围,提高了搜索效率。DNN可预测决策变量的先验概率分布,用于指导MCTS的搜索过程,使得MCTS的搜索更有倾向性,决策空间进一步大幅度缩小,搜索速度和准确率也大幅度提高。所提出方法的最大优势是可以对未见过的状态进行预测,从而提高算法的通用性。2.本文根据无人机信道的特点提出了长短期记忆网络(Long Short Time Memory,LSTM)信道预测模块,以提高MCTS的搜索准确度,本文提出的iTOA较传统算法性能提高了60%。同时,为了适应一个资源分配动作有多个子动作的特性,本文提出了一种改进型多任务深度神经网络(Multi-task DNN,MT-DNN),用于一次输出多个子动作的先验概率分布。该网络的优势在于可以输出有依赖关系的多个子动作先验概率分布,提高联合决策性能,本文提出的iRAF较传统算法性能提高了59.27%。3.对于服务迁移问题,本文提出用部分可观测马尔科夫决策过程来对服务迁移问题进行建模。该方法有效地降低了决策空间维度,还使得分布式决策也能考虑到全局信息。本文提出了用连续搜索空间的交叉熵规划算法来替代MCTS算法,补足离散空间搜索的性能损失。交叉熵规划算法还可以用GPU加速,极大地提高了规划效率。对于搜索过程的指导,本文还提出了基于隐藏空间推理的环境预测模型,并替代DNN网络。该模型可以在隐藏空间中完全模拟环境的状态转移过程,使得交叉熵规划算法能联合未来的状态做出最优决策。与深度Q网络(Deep Qlearning Network,DQN)算法相比,iSMA算法在时延性能优化上有58.1%的性能提升。