论文部分内容阅读
雾无线接入网(Fog Computing Based Radio Access Network,F-RAN)作为5G无线接入网解决方案之一,具有低前传链路开销、低传输时延、低网络拥塞等特点,提供了更多的通信信息与控制功能。深度增强学习(Deep Reinforcement Learning,DRL)结合了深度学习(Deep Learnning,DL)处理感知问题和增强学习(Reinforcement Learning,RL)处理控制决策问题的优势,可以解决现实中复杂场景下的感知决策问题。目前多数文献并未考虑文件流行度等环境参数变化场景下的F-RAN协作编码缓存和缓存替换配置问题,且经典算法在该场景下的应用具有局限性,因此可以结合人工智能(Artificial Intelligence,AI)范畴的DRL方法,在确定系统状态空间及动作空间的情况下,将协作编码缓存和缓存替换过程建模为离散时间系统(Discrete Time System,DTS)下单智能体的感知决策问题,通过智能体对变化环境的适应性探索并基于回报函数确定状态转移动作,给出编码缓存策略和缓存替换配置的局部最优解。论文主要以DRL启发式算法为主,如DB3C,CBA3C算法,解决了文件流行度变化场景下F-RAN中的协作编码缓存策略问题以及编码缓存替换配置问题,主要包括以下两部分研究内容和结论:(1)针对文件流行度变化场景下的F-RAN协作编码缓存策略问题,论文分析并构建符合该问题场景的DRL模型,采用基于DQN的启发式算法DB3C,确定系统状态空间和动作空间并根据缓存文件联合传输成功率确定回报函数,调整参数以实现算法在文件流行度变化场景下的收敛。仿真分别对比DB3C、RL算法、带编码最流行文件缓存算法及无编码最流行文件缓存算法在系统回报上的表现,证明DB3C具有较优的性能。(2)针对文件流行度变化场景下的F-RAN缓存替换配置问题,论文分析并构建符合该问题场景的DRL模型,采用Camul算法和A3C多线程训练模式相结合的启发式算法CBA3C,确定系统状态空间和动作空间,并综合考虑缓存命中率和系统开销推导回报函数,调整参数以实现算法在文件流行度变化场景下快速收敛。仿真分别对比CBA3C、LRU、LFU、MARKING 和 DQN 算法,证明 CBA3C 启发式算法能够在保证系统较好缓存命中率的同时取得较低系统总开销。