论文部分内容阅读
无线通信中的能量收集(EH,Energy Harvesting)技术是指通信设备可以从周围环境中收集太阳能、风能、电磁能等可再生能源的技术。具有能量收集设备的通信节点可以更加灵活地部署、减少对电网供电的依赖性、而且更加符合节能减排的理念,是未来绿色通信的发展趋势。将能量收集技术结合传统通信的多进制正交幅度调制(MQAM,Multiple Quadrature Amplitude Modulation)技术相结合,可以同时缓解化石能源和频谱资源短缺的问题。本文围绕能量收集MQAM无线通信系统的资源分配问题进行了深入的研究,主要工作如下:1)为了提高通信系统的容量、提高能量收集的利用效率,研究了基于强化学习方法的EH-MQAM点对点无线通信系统的资源分配问题。由于能量收集通信系统的能量达到具有随机性突发性的特点,加之无线信道的多变和衰落,使得我们无法预测能量到达和信道的状态。传统的凸优化方法对解决这类通信系统的优化问题已经不再适用,所以本文利用了一种新颖的方法——强化学习来求解系统最大吞吐量的优化问题。首先尝试了最基本的基于表格式的值函数强化学习算法—Q-learning和SARSA算法来找到分时通信系统每一时隙的最优传输策略。然后通过数学方法证明Q-learning和SARSA算法的收敛性。最后,仿真实验表明,这两种算法均可以达到收敛状态。利用收敛后的表格,它们都可以找到最优传输策略且在吞吐量性能上优于其他相比较的传统传输策略。2)为了优化SARSA和Q-learning算法收敛速度慢,需要额外内存资源储存动作值函数表格的问题。本文尝试了用一种基于Tile-Coding方法的值函数近似SARSA算法改进传统的SARSA算法。根据文中通信系统的优化问题的主要特征,设计了3组狄利克雷基函数。用基函数与权重的向量积逼近存储在表格中的动作值函数。仿真实验表明,近似的SARSA算法同样可以找到最优的传输策略,且收敛速度快,不占用额外内存,更适合体积轻小灵活的无线通信设备。3)为了避免2)中人工寻找系统特征来构造基函数从而逼近动作值函数的麻烦,本文继续深入探索值函数的近似方法,并利用神经网络这一强大的拟合工具来自动获得通信系统传输策略的特征。利用DQN(Deep Q Network)算法中的记忆回放和设置目标网络两大技巧来缓解神经网络不易收敛的特性。仿真实验表明,DQN算法同样可以找到本文通信系统的最优传输策略,且收敛速度非常快、无需人为寻找系统特征。