能量收集无线通信系统中基于强化学习的能量分配策略.docx

想预览更多内容,点击预览全文

申明敬告:

本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己完全接受本站规则且自行承担所有风险,本站不退款、不进行额外附加服务;如果您已付费下载过本站文档,您可以点击这里二次下载

文档介绍

能量收集无线通信系统中基于强化学习的能量分配策略 摘要:随着物联网的普及,对物联网终端设备可使用能量的要求也在提高。能量收集技术拥有广阔前景,其能通过产生可再生能量来解决设备能量短缺问题。考虑到未知环境中可再生能量的不确定性,物联网终端设备需要合理有效的能量分配策略来保证系统持续稳定工作。文中提出了一种基于DQN的深度强化学习能量分配策略,该策略通过DQN算法直接与未知环境交互来逼近目标最优能量分配策略,而不依赖于环境的先验知识。在此基础上,还基于强化学习的特点和系统的非时变系统特征,提出了一种预训练算法来优化该策略的初始化状态和学习速率。在不同的信道数据条件下进行仿真对比实验,结果显示提出的能量分配策略在不同信道条件下均有好于现有策略的性能,且兼具很强的变场景学习能力。 1 引言 近年来,物联网(IoT)不断普及,其应用范围越来越广泛。但由于物联网终端设备只能携带有限蓄电池,其能量短缺问题始终限制着物联网的进一步发展 虽然带有EH模块的系统有以上令人瞩目的优势并得到了广泛的应用 因此,鉴于先验知识问题的难以解决,人们转而寻找一些无模型的基于学习的方法来减小甚至摆脱先验知识的束缚。其中,强化学习便是一种在未知环境中让代理自主学习提高其性能表现而闻名的算法 本文研究了在未知环境下的EH多址无线通信系统的能量分配问题,提出了一种基于DQN的强化学习能量分配策略,在没有任何先验系统知识的条件下,直接通过系统与环境的交互来实现在线合理规划和控制AP选择多个用户对多个信道的接入,以实现联合协同优化最大化系统长期吞吐量和最大化系统工作时长的系统目标。此外,为了提高系统的变场景学习能力和学习初期的表现,本文基于强化学习和系统的非时变结构特点,提出了一种预学习的改进算法。实验结果表明,本文提出的策略在仿真实验中的表现均优于传统策略,并且预训练算法优化系统的初始状态效果明显,使得策略具有较好

最近下载