AOI and DRL

2022-03-01 22:33:33 作者：互联网

首先给出论文地址和代码， Reinforcement Learning Based Scheduling Algorithm for Optimizing Age of Information in Ultra Reliable Low Latency Networks

从题目可以得知，这是一篇有关强化学习的论文，具体的工作是用A3C算法来优化10个sensor的AOI以及保证URLLC，所谓URLLC，即给每一个sensor都设定一个阈值，接着通过训练来保证每一个sensor的AOI不超过这个阈值，否则就会受到惩罚，给一个很负的奖励，通俗的来讲就是保证可靠性，这是优化目标。状态的设置是10个sensor的AOI和最后5个包的下载时间和吞吐量，将这些状态送往神经网络最后整合一下，再通过一个全连接神经网络得到10个概率分布，作者选择动作的方式和一般A3C选择动作的方式些许不同，但影响不大，感兴趣的可以在代码里面查看，里面涉及到了很多知识，模型的保存、交叉熵、tensorboard的可视化，模型的保存用于Test并给出最后的结果，也就是论文中的表格数据和图，Train文件夹是用来训练模型的，以上是作者所用的A3C算法，尽管这个模型还有很多的不足，但是很简单，作为学习入门是可以的了。

另外，我用最基本的DQN也实现了一下这篇论文，最后的结果如下：
DQN
结果不比A3C差，我写的代码有时间也会上传到GitHub，以上。

标签：10,模型,论文,AOI,A3C,DRL,sensor
来源： https://blog.csdn.net/GMBai/article/details/123217535