首页 > 其他分享> > 简单梳理一下论文中的想法

简单梳理一下论文中的想法

2021-09-29 12:34:39 作者：互联网

　　最近看了一篇利用UAV搭载RIS保持IoTDs的信息新鲜度的论文：

　　现如今，普遍认为无线通信的普及会让物联网成为未来网络的推动者。通常来说，城市中的应用都十分依赖物联网的信息新鲜度、覆盖率和互通性。在论文中，先提出了AoI，即最近接收到的信息（状态更新）生成/采样所消耗的时间。同时，提到了RIS有以下优点：

（1）可以改善接收机接收到的信号并减少干扰

（2）由许多个无源低功耗低成本元件构成，每个元件都可以独立调节入射信号的相移

（3）根据配置相移，可以人为构造反射信号，提高物联网可靠性//为什么配置相移，就可以产生反射信号？

　　而UAV可以改善网络的互通性和覆盖率，不妨将两者结合起来构成aerial RIS(ARIS)：

　　用UAV搭载RIS作为中断节点，然后物联网（不同的激活模式）对城市里面的应用的信息进行采样、发射（s.t. SNR&AoI），通过RIS传递给基站，这样就不用穿过山体，造成信息的时延。//UAV功耗太大，飞行时间短？

　　这样处理有以下几个好处：

（1）因为RIS的工作模式为FD（全双工中断模式），故只需要一个time slot。//为什么全双工就只需要一个time slot

（2）UAV不用处理中断信息，减少功耗以增加飞行时间。

（3）集成UAV和RIS，减少了无线网络资源，降低了UAV功耗。//这里不是很明白，为什么会减少无线网络资源？

　　同时，为了最小化AoI,该ARIS框架带来了三个问题：

（1） considering the SNR constraints

（2）UAV altitude consraint

（3）IoTDs scheduling constraints

　　在UAV飞行之前，需要对UAV进行离线处理优化的部署规划，但是我们并不知道IoTDs的激活模式。

　　故，在该论文中使用了基于PPO算法的DRL框架，解决了在UAV飞行之前我们无法提前得知IoTDs的activation pattern（激活模式？）的问题

一、DRL（Deep reforcement learning）

　　以飞行射击游戏为例，让机器控制飞机完成向左、向右和射击三个简单操作。

agent先观察environment(游戏图像)，获得游戏的state(s₁)，再根据policy选择一个action。agent采取action之后，environment会发生一定的改变（即state发生变化，产生s₂），同时反馈给agent一个reward。agent再根据reward可能改变action。这就是利用马尔科夫决策过程（MDP）对学习过程进行形式化。

　　显然，机器需要进行大量的练习以此学会最大化reward。值得一提的是，并不是有人去教机器如何操作以达到最大化reward，而是机器自己通过不断的练习找到最大化reward的方法。

policy θ

马尔可夫决策过程（MDP）

PPO

标签：IoTDs,论文,RIS,想法,UAV,相移,agent,reward,梳理
来源： https://www.cnblogs.com/z-qhhh/p/15349803.html