首页 > 其他分享> > 【未】Optimizing Rebalance Scheme for Dock-less Bike Sharing Systems with Adaptive User Incentive

【未】Optimizing Rebalance Scheme for Dock-less Bike Sharing Systems with Adaptive User Incentive

2021-07-07 21:58:29 作者：互联网

论Optimizing Rebalance Scheme for Dock-less Bike Sharing Systems with Adaptive User Incentive

摘要

——最近，共享单车系统的发展(BSS) 为公众带来环境和经济效益。然而，BSS 经常受到自行车分布不平衡的影响，包括无码头 BSS。一个地区的自行车下溢或上溢可能导致BSS服务水平降低或城市拥堵。在论文中，我们考虑通过向用户提供货币激励来重新平衡无码头 BSS。长期目标是最大限度地增加在一段时间内成功完成骑行的满意用户的数量。无码头 BSS 的运营商不仅可以通过来源激励鼓励用户在其来源附近租用自行车，还可以通过目的地激励激励他们在目的地附近归还自行车。为了了解跨时间和空间重新平衡自行车的差异化激励价格，我们为用户激励扩展了一个新颖的深度强化学习框架。通过避免自行车下溢和溢出来调整源和/或目的地的绕行水平，以自适应方式整合源和目的地激励措施。在实验中，我们将我们的方法与两种现有的定价方案进行比较。源和目的地的位置是从 Mobike 的选定数据集中抽象出来的。实验结果表明，我们的自适应学习算法优于仅考虑源激励的原始算法以及另一种在最大化长期满意用户数量方面的最新方法。

1. introduce

近来，共享单车系统发展迅猛(BSSs) 为公众带来环境和经济效益 [1]。尽管 BSS 为公众带来了诱人的好处，但该系统仍然存在自行车分配不平衡的问题。用户在时间和空间上的不对称需求都可能导致自行车分布的不平衡。对于像纽约市的花旗自行车这样的停靠 BSS，每个站点都有容量限制，极端不平衡可能导致下溢或溢出事件。也就是说，当用户试图租用自行车时，一个车站是空的，或者当用户试图归还自行车时，一个车站已经满了。对于像中国摩拜单车这样的无坞站 BSS，虽然没有站点或容量限制，但它们仍然面临下溢和/或溢出事件，如图 1 所示。这些可能导致 BSS 服务水平降低或拥塞城市。为了避免这些负面影响，在一定预算下重新平衡 BSS 很重要

现有的基于用户的无坞站 BSS 重新平衡策略不能充分发挥用户激励的优势。 [2] 中提出了一种基于强化学习的无坞站 BSS 的再平衡方案。然而，该方案仅考虑鼓励用户从附近地区租用自行车（源头绕道）并带有源头激励，而忽略了用户也可以通过目的地激励将自行车归还到其他地方（目的地绕道）的可能性。我们发现目的地激励也有助于重新平衡系统。源头和目的地激励的自适应组合可以为系统带来额外的好处。

图 2 中的一个例子说明了我们的观察。对于sim-plicity，==城市地图被划分为正方形区域，时域被离散为时隙。在图中，重新平衡的性能由服务级别量化，其中地图被划分为 4 × 3 方形区域。即成功完成行程的用户数量。==在这个例子中，有一辆自行车位于 R。看图。

在这里插入图片描述
受此观察的启发，我们提出了 Dock-lessBSS 重新平衡 (DBR) 问题。无码头 BSS 运营商为用户提供来源和目的地激励措施，并鼓励他们以有限的预算在特定地点租用或归还自行车。我们假设如果源或目的地激励大于用户的绕行成本，其中包含初始费用加上与绕行距离相关的公平，那么用户将接受报价。我们的目标是在一天内最大限度地增加满意的用户总数。时空域不对称的用户需求带来了为用户决定差异化定价的挑战。再平衡方案需要以具有成本效益的方式自适应调整源和目的地激励的比例，这给问题带来了另一个挑战。

在本文中，我们扩展了新颖的深度强化[2] 提出的学习框架，以重新平衡无码头 BSS 与用户激励。我们建议建立一个混合激励方案，考虑目的地激励带来的好处，而不是仅仅考虑源激励。架构如图3所示，系统可以自适应调整源端激励和目的地激励的比例。具体来说，在训练强化学习网络时，再平衡方案以BSS的自行车轨迹信息和运营商提供的预算为状态，以每个区域的源头和目的地激励价格为动作。环境反馈满意的用户数量作为奖励并更新状态.

三个优点：

• We propose the Dock-less BSS Rebalancing (DBR) prob- lem, where the BSS is balanced by incentivizing users. Both source and destination incentives are considered.
• We illustrate the benefits brought by the destination incentive and adapt the deep reinforcement learning ar- chitecture designed for source incentive to optimize the incentive scheme for considering destination incentive.
• We further consider two ways to adaptively combine source and destination incentives under the same budget constraint, and we set up experiments on a real-world dataset to examine the performance of our approaches.

2. PROBLEM STATEMENT

A. Overview

在我们的问题中，BSS 运营商激励用户在给定预算下重新平衡自行车站。我们希望为用户自适应分配预算，让他们在源头和/或目的地绕道而行。目标是在一天内最大限度地提高系统的整体服务水平。服务水平由满意用户的数量来量化。

具体来说，用于鼓励用户的激励措施在其来源地的邻近地区租用自行车称为来源激励，而在另一侧则称为目的地激励。对于来源激励，BSS 运营商向每个用户提供可用自行车的位置以及邻近地区的自行车激励价格。对于目的地激励，运营商建议用户将自行车归还到用户目的地的邻近地区。源头和目的地激励的价格由激励方案决定。 [2] 中研究了基于强化学习的源激励价格方案。我们建议共同考虑受我们观察到的目的地激励的好处所激发的源和目的地激励。用户是否接受激励的选择由环境模型模拟。再平衡的性能是通过服务水平来评估的，服务水平是满意用户的数量。我们的混合激励架构的架构如图 3 所示。

B. Incentive Scheme Model

在我们的激励方案中，时空域被离散化。 BSS 运营商在每个时隙为每个区域提供不同的源和/或目的地激励价格。具体来说，每一天被分成m个时隙， T = {t1,t2,…,tm}.一个城市 H 被划分为 n 个正方形区域
，即H = {h1,h2,…,hn}。 hi 的邻居区域被定义为与 hi 直接相邻的四个区域，表示为 N(hi)。 BSS 系统的用户用 U = {u1,u2,… uo} 表示。尽管实际用户需求在时间和空间上有所不同，但他们在两个领域的需求模式为我们的激励计划提供了基础。时隙 t 内区域 hi 的用户出租事件和归还事件的数量分别表示为 Di(t) 和 Λi(t)。在时隙 t 开始时 hi 中的自行车数量表示为 ϕi(t).

为了处理BSS的不平衡，我们假设提供者可以提供一个用于用户激励的预算B，包括一个源激励预算B+和一个目的地激励预算B-。我们的激励方案决定在每个时间段 t 为每个区域 hi 决定源激励 p+i (t) 和目的地激励 p− i (t) 的价格不同。如果用户在时间段 t 期间在他/她的源区域的邻域 hi 租用自行车，他/她可以获得激励 p+i (t)。每个相邻区域可能包含不止一辆自行车，并且同一区域内的自行车具有相同的激励价格。类似地，目的地激励 p−i (t) 给予在时间段 t 期间将自行车归还到与用户目的地区域相邻的 hi 的用户。与源激励不同，我们假设每个区域只包含一个潜在的返回位置，即该区域的中心。这种简化可以降低模型的复杂性。

C. Environment Model

环境主要对用户动态进行建模并为激励方案提供反馈。基于方案生成的源和目的地激励价格向量，环境模拟每个用户接受或不接受激励的选择。

我们假设用户知道所有地区的来源和目的地激励价格,并且“源绕行”和“目的地绕行”有绕行成本。如果源激励价格大于源绕行成本，用户将接受源激励。同样适用于“目的地绕行。源头和目的地绕行成本共享相同的模型，该模型基于 [2, 3] 中的模型构建。在我们的模型中，用户 uk 对源头或目的地绕行的初始成本为 C。此外，成本也与绕行距离δ有关。具体来说，让 c k ( h i , h j , δ ) 和 c k ′ ( h i , h j , δ ′ ) c_k(h_i,h_j,δ) 和 c'_k(hi,hj,δ') ck(hi,hj,δ)和ck′(hi,hj,δ′)分别表示源和目的地绕行成本。 hi 和 hj 分别代表英国租用和归还自行车的地区。 δ 和 δ’是对应的源和目的地绕行距离。如果用户 uk 在其来源地（或目的地）的邻居区域租用（或归还）自行车，则其来源地绕行成本 c k ( h i , h j , δ ) = C + η δ 2 c_k(hi,hj,δ)= C+ηδ^2 ck(hi,hj,δ)=C+ηδ2（或目的地绕行成本 c k ′ ( h i , h j , δ ? ) = C + η δ ′ 2 c'_k(hi,hj,δ?)= C + ηδ'^2 ck′(hi,hj,δ?)=C+ηδ′2)，其中 η 是一个常数系数。我们假设用户不愿意在比邻近地区更远的地区租借或还车，并且在这些地区租借或归还自行车的成本是无穷大的。如果用户 uk 在与他/她的来源（或目的地）相同的地区租用（或归还）自行车，则无需支付任何费用。需要注意的是，如果用户在源端和目的地都绕行，他/她将获得两个 C 作为进行源端和目的地绕行的激励，这有助于在一次旅行中解决 BSS 的溢出和下溢问题。

D. Problem Formulation

基于系统和环境模型，提出了Dockless BSS Rebalancing (DBR)问题。在 DBR 中，我们的目标是在一天的服务圈内最大限度地提高 BSS 的服务水平。在每个服务圈中，BSS 运营商为源和目的地激励提供预算 B + 和 B − ， B + + B − = B B^+和 B^−，B^+ +B^− = B B+和B−，B++B−=B。形式上，我们的问题可以表示为：
∑ t = 1 m ∑ i , j = 1 n τ i j ( t ) (1) \sum_{t=1}^m\sum_{i,j=1}^n\tau _{ij}(t)\tag{1} t=1∑mi,j=1∑nτij(t)(1)

所有时刻所有区域的满意的服务水平

∑ t = 1 m ∑ i = 1 n p i + ( t ) < B − B − (2) \sum_{t=1}^m\sum_{i=1}^np^+_i(t)<B-B^-\tag{2} t=1∑mi=1∑npi+(t)<B−B−(2)

p i + （ t ) p_i^+（t) pi+（t)t时刻区域i的源激励

∑ t = 1 m ∑ i = 1 n p i − ( t ) < B − (3) \sum_{t=1}^m\sum_{i=1}^np^-_i(t)<B^-\tag{3} t=1∑mi=1∑npi−(t)<B−(3)

p i − ( t ) p_i^-(t) pi−(t)t时刻区域的i的目的激励

∑ j = 1 n τ j i ( t ) − ∑ j = 1 n τ i j ( t ) ≤ φ i ( t ) , ∀ i , t (4) \sum_{j=1}^n\tau_{ji}(t)-\sum_{j=1}^n\tau_{ij}(t)\leq \varphi_i(t),\quad \forall i,t\tag{4} j=1∑nτji(t)−j=1∑nτij(t)≤φi(t),∀i,t(4)

在t时刻，i区域的入流量-i区域的出流量<=当下的自行车流量

φ i ( t + 1 ) = φ ( t ) + ∑ j = 1 n ( τ j i ( t ) − τ i j ( t ) ) , ∀ i , t (5) \varphi_i(t+1)=\varphi(t)+\sum_{j=1}^n(\tau_{ji}(t)-\tau_{ij}(t)),\quad \forall i,t\tag{5} φi(t+1)=φ(t)+j=1∑n(τji(t)−τij(t)),∀i,t(5)

t+1时刻的自行车数量=t时刻的自行车数量+t时刻进流量-t时刻的出流量

请注意，与现有价格方案的差异可以在等式中找到。(6)和(7)，这里我们考虑两种激励，源激励和目的地激励的总体预算保持为B.不同之处在于预算B的一部分杯指定用于目的地激励。

III. HYBRID INCENTIVE SCHEME

A. An Existing Pricing Scheme for Source Incentive

Pan等人提出了一种源激励的定价算法。人 [2]。他们的定价方案基于马尔可夫决策过程 (MDP)，并通过使用受分层强化学习 [4-6] 和深度确定性策略梯度算法 [7] 启发的强化学习方法进行优化。他们的定价算法在本节中简要说明，我们的自适应激励计划建立在它的基础上。

MDP 用于对定价方案和环境之间的交互进行建模。具体来说，MDP 由一个 5 元组 (S, A,P, r,γ ) 给出，其中 S 是状态集 {st}，A 是动作集 {at}，P 描述了动作下的状态，r 表示即时奖励，γ ∈ [0, 1] 是折扣因子。 γ =1 表示未来的奖励与现在的奖励同等重要。定价方案将所有区域的源激励价格视为一个动作，将满意的用户数量视为奖励。当预算 B 用完时，MDP 结束。定价方案通过强化学习优化 MDP，找到一个策略 π θ π_θ πθ，将状态映射到动作。在时间段 t 期间从 hi 租借并返回到 hj 的自行车数量由 τ i j ( t ) τ_{ij}(t) τij(t) 表示。

B. A Hybrid Incentive Scheme

无论是源头激励还是目的地激励，都缺乏一定的用户动态。因此，除了只考虑来源或目的地激励，我们建议将这两种激励结合起来，构建一个混合激励方案。混合激励方案可以根据不同的失衡情况自适应调整源激励和目的激励的比例。

在混合激励方案中，当用户尝试租用（或归还）自行车时，系统会显示附近每辆自行车的来源（或目的地）激励价格。我们假设用户的决定是基于定价模型做出的。>由于增加了目的地绕行预算B-和目的地奖励p-，所以MDP的状态空间和行动空间变大了

具体来说，状态向量 S t S_t St有以下构建

∑ h i φ i ( t ) \sum_{h_i}\varphi_i(t) ∑hiφi(t)t时段开始时所有区域的自行车数量，–>即未使用的自行车数量
∑ h i D i ( t − 1 ) \sum_{h_i}D_i(t-1) ∑hiDi(t−1)用户在t-1时段所有区域的租赁数目
∑ h i Λ i ( t ) \sum_{h_i}\Lambda_i(t) ∑hiΛi(t)用户在t-1时段所有区域的归还数目
B + − ∑ h i , t p i + B^+-\sum_{h_i,t}p_i^+ B+−∑hi,tpi+源预算-所有时段所有区域的源激励–>源激励的剩余预算
B − ∑ h i , t p i − B^-\sum_{h_i,t}p_i^- B−∑hi,tpi−目的地预算-所有时段所有区域的目的地激励–>目的地激励的剩余预算
以前时刻的中断服务事件

当 t 达到时隙上限或源和目标激励的剩余预算为空时，MDP 结束。

时间段 t 的动作向量 at 包括

源激励价格 ( p i + ( t ) , i = 1 , . . . , n ) (p^+_i (t),i =1,...,n) (pi+(t),i=1,...,n)
目标激励价格 ( p i − ( t ) , i = 1 , 。 . . , n ) (p^−_i (t),i =1,。 ..,n) (pi−(t),i=1,。..,n)。

状态传输可以通过环境模型进行模拟。

激励的奖励 r 由源激励 r + ( s t , p + ) r^+(s_t,p^+) r+(st,p+) 和目标激励 r − ( s t , p − ) r^−(s_t,p^−) r−(st,p−)的奖励构成。

由于对MDP 的修改，我们扩展了[2] 中的actor-critic 框架。 actor 网络的规模扩大如图6所示。actor网络1用于学习源激励价格p+(t)，actor网络2用于学习目的地激励价格p-(t) . 对于critic网络，在时隙t每个区域 hi sub-Q 值是基于 ( p i + ( t ) , p i − ( t ) ) (p^+ _i (t),p^−_ i (t)) (pi+(t),pi−(t)) 而不是仅仅考虑 p i + ( t ) p^+_i (t) pi+(t)，并且 Q 值的估计相应地变化。
在这里插入图片描述

C. Adaptively Adjusting Source and Destination Incentives Besides

除了调整学习框架，我们还提出两种方式调整来源地和目的地的激励价格比例。一种方法是预算划分，其定义如下所示:
定义1（预算划分）：假设可用总预算为B，预算划分比例为ρ。那么指定给源激励的预算是 ρB，剩余的 (1 − ρ)B 用于目标激励。
在该方案下，初始状态s0的源和目的地激励的剩余预算变为：
B + = ρ B , B − = ( 1 − ρ B ) B^+=\rho B,B^-=(1-\rho B) B+=ρB,B−=(1−ρB)
在策略 πθ 下一天的总体奖励变为：

IV. EXPERIMENT

A. Experiment Setup

时间：2016.8.1->2016.9.1
地点：上海
Mobike数据集数目超过10万条
记录包括：持续时间（秒），行程开始（结束）时间，开始（结束）经纬度
环境建立在OpenAIGym
时间：一天划分24个阶段
空间：20*40个
79063辆自行车
用户请求从mobike跟踪数据中获得时间、源、目的地
混合激励方案时，采用adam算法优化actor and critic网络
两个网络的学习率都设置未10^-4
高斯噪声加入到actor网路中的每个动作中
MDP的折损因子未0.99

标签：Optimizing,Sharing,less,用户,BSS,激励,目的地,hi,自行车
来源： https://blog.csdn.net/panbaoran913/article/details/118555111