QFW:更快的优化,更低的传输成本,无投影法
作者:互联网
原文:
Quantized Frank-Wolfe: Faster Optimization, Lower Communication, and Projection Free Mingrui Zhang mingrui.zhang@yale.edu Department of Statistics and Data Science Yale University New Haven, CT 06511 Lin Chen lin.chen@yale.edu Yale Institute for Network Science Department of Electrical Engineering Yale University New Haven, CT 06511 Aryan Mokhtari aryanm@mit.edu Laboratory for Information and Decision Systems Massachusetts Institute of Technology Cambridge, MA 02139 Hamed Hassani hassani@seas.upenn.edu Department of Electrical and Systems Engineering University of Pennsylvania Philadelphia, PA 19104 Amin Karbasi amin.karbasi@yale.edu Department of Electrical Engineering and Computer Science Yale University New Haven, CT 06511
摘要
如何有效减轻分布式中梯度通信的开销优化? 这个问题是训练可扩展机器学习模型的核心,主要在不受限制的环境中进行研究。 在本文中,我们提出了量化Frank-Wolfe(QFW),第一个无投影且通信效率高的算法,用于大规模解决约束优化问题。 我们同时考虑凸面和非凸面目标函数,表示为有限和或更一般地说是随机优化问题,为QFW的收敛速度提供了有力的理论保证。 这个通过提出有效压缩梯度的新颖量化方案来完成
同时控制在此过程中引入的噪声方差。 最后,我们凭经验在沟通和退货质量方面验证QFW的效率自然基准的解决方案。
1.介绍
Frank-Wolfe(FW)方法(也称为条件梯度)作为针对各种约束凸和非凸优化问题的无投影算法,最近在机器学习社区中引起了广泛关注。 为了将FW算法应用于大规模问题(例如,训练深度神经网络,RBM),并行化是不可避免的。
为此,已经针对特定问题提出了分布式FW变体,例如在线学习,学习低秩矩阵和在块可分离的约束集下进行优化。
分布式优化方法的显着性能瓶颈是通常通过使用参数服务器框架来解决的传递梯度的成本。
直观地,如果分布式系统中的每个服务器都传输整个梯度,则将为每个服务器传递至少d个浮点数,其中d是问题的维度。这种通信成本可能对并行优化算法的性能造成巨大负担。
为了避免这一缺点,通信效率高的并行算法已受到广泛关注。 一种主要方法是在保持足够信息的同时量化梯度。
对于无约束优化,当不需要投影来实现随机梯度下降(SGD)时,已经提出了几种通信有效的分布式方法,包括QSGD,SIGN-SGD和Sparsified-SGD。
在受限的环境中,尤其是对于分布式FW算法,仅针对诸如稀疏学习之类的特定问题研究了有效通信的版本。
但是,在本文中,我们开发了量化的Frank-Wolfe(QFW),这是一种既能实现凸目标函数又能实现非凸目标函数的通用通信有效分布式FW。
我们在两种公认的环境中研究QFW的性能: 1)随机,2)有限和优化。
设解K⊆Rd为约束集。对于约束随机优化,目标是最小x∈Kf(x):=最小x∈KEz〜P [f〜(x,z)],(1)
其中x∈Rd是最优化变量,Z∈Rq是从分布P抽取的随机变量,它确定了随机函数f〜的选择:Rd×Rq→R。
对于有约束的有限和最优化,我们进一步假设P是在 [N] = {1,2,····,N},目标是解决问题(1)的一种特殊情况,即minx∈Kf(x):= minx∈K1N NXi = 1固定)(2)
在并行设置中,我们假设有一个主机和M个服务器,并且每个服务器维护x的本地副本。在随机情况的每次迭代中,每个服务器都可以访问独立的f随机梯度;而在有限和情况下,我们假设N = Mn, 因此目标函数可以分解为f(x)= 1 MnPm∈[M],i∈[n] fm,i(x),每个服务器m都可以访问n个分量函数fm,i的精确梯度。 (x)对于所有i∈[n]。
这样,将梯度的计算任务分配给了服务器。主机汇总服务器的局部梯度,然后将汇总的梯度发送回给他们,以便每个服务器可以在本地更新模型(即,他们自己的迭代)。因此,通过传输量化梯度,我们可以降低通信复杂性(即数量传输的比特数)。
分布式量化方案的工作流程图如图1所示。最后,我们应该强调指出,梯度量化与信息流之间需要权衡。直观地,更密集的量化降低了通信成本,但同时也会丢失更多信息,这可能会降低收敛速度。
我们的贡献:在本文中,我们提出了一种新颖的分布式无投影框架,该框架可处理随机和有限和情况下约束凸和非凸优化问题的量化。
众所周知,与基于投影梯度的方法不同,FW方法在馈入随机梯度时可能会发散。确实,在分布式环境中会出现类似的问题,在这种环境中,节点交换量化的梯度,这是梯度的嘈杂估计。
通过在不同的设置中结合适当的方差减少技术,我们证明了使用量化梯度,我们可以获得一种可证明收敛的方法,该方法在大多数情况下保留了香草未量化方法的收敛速度。
我们相信与之前的所有工作相比,我们的工作提出了第一个量化,分布和无投影的方法,考虑在无约束条件下进行量化。
表1总结了我们的量化Frank-Wolfe(QFW)理论结果,其中SFO复杂度是随机情况下所需的随机梯度数,而IFO复杂度是有限和情况下分量函数的精确梯度。更具体而言,我们证明
(i)QFW通过使用以下公式将SVRF方法(Hazan and Luo,2016)的IFO复杂度O(1/2)改进为有限和凸情况下的O(n /)。新提出的SPIDER方差还原技术;
(ii)对于随机凸情形,QFW保留了SFW算法的SFO / IFO复杂性;对于有限和非凸情形,则保留了加速NFWU方法;
(iii)对于随机非凸情况,QFW的SFO复杂度O(1/4)比SVFW-S,O(1 / 10/3)稍差它使用量化的梯度。
2.梯度量化方案
如前所述,可以通过发送量化梯度来有效降低通信成本。在本节中,我们介绍一种称为s分区编码方案的量化方案。
考虑梯度向量g∈Rd,令gi为梯度的第i个坐标。 s分区编码方案以随机方式将gi编码为{±1,±ss1s,···,±1s,0}集中的一个元素。
为此,我们首先计算比率| gi | /kgk∞并找到指标li∈{0,1,···,ss 1}使得| gi | /kgk∞∈[li / s,(li + 1)/ s]。然后我们将随机变量bi定义为bi =(li / s,w.p. 1䷖| gi |kgk∞s + li,(li + 1)/ s,w.p. | gi |kgk∞s − li。(3)
最后,我们不发送gi,而是发送sgn(gi)·bi以及标准kgk∞。可以证明E [bi | g] = | gi | /kgk∞。
因此,我们将相应的解码方案定义为φ0(gi)= sgn(gi)bikgk∞,以确保φ0(gi)是gi的无偏估计量。
我们注意到,这种量化方案类似于中的随机量化方法,不同之处在于我们使用`∞-范数,而他们采用`2-范数。在s分区编码方案中,对于每个坐标i,我们需要1位来传输sgn(gi)。此外,由于bi∈{0,1 / s ,。 。 。 ,(s -1)/ s,1},我们需要z = log2(s +1)位来发送bi。最后,我们需要32位来传输kgk∞。因此,通信比特的总数为32 + d(z + 1)。此处,“比特”是指传输的0和1的数量。
s分区编码方案的一个主要优点是,通过调整分区参数s或相应的分配位z,我们可以平稳地控制梯度量化和信息丢失之间的折衷,这有助于分布式算法获得最佳效果性能。我们继续表征s分区编码方案的方差。
引理1:对于任何g∈Rd的s分区编码方案φ的方差为
Var [φ0(g)| g]≤sd2kgk2∞。 (4)
如果将s = 1,则将获得符号编码方案,该方案要求传递编码后的标量sgn(gi)bi∈{±1,0}和范数kgk∞。由于z = log2(s + 1)= 1,因此每个工作人员的总通信位为每轮32 + 2d。我们在引理2中描述其方差。
引理2符号编码方案的方差为
Var [φ0(g)| g] =kgk1kgk∞-kgk22。 (5)
对于随机变量bi的概率分布,我们可以使用其他范数kgkp(其中p≥1)代替kgk∞。但是可以证明,“∞-范数”导致符号编码方案的最小方差。这也是为什么我们不使用`2-范数的原因。
3.随机优化
在本节中,我们旨在以分布式方式解决(1)中定义的约束随机优化问题。尤其是,我们对免投影(Frank-Wolfe类型)方法感兴趣,并执行量化以减少主机与服务器之间的通信成本。回想一下,我们假设在每轮t时,每个服务器m∈[M]都可以访问目标函数梯度∇f(xt)的无偏估计量,该估计量由gtm(xt)表示,即∇f(xt)= E [gtm(xt)| xt]。我们进一步假设随机梯度彼此独立。
在我们提出的随机量化Frank-Wolfe(S-QFW)方法中,在迭代t时,每个服务器m首先计算其局部随机梯度gtm(xt)。然后,它将gtm(xt)编码为Φ(gtm(xt))(已量化并且可以以较低的通信成本传输)到主机。一旦主机收到所有编码的随机梯度{Φ(gtm(xt))} Mm = 1,它就会使用适当的解码方案来评估{Φ0(gtm(xt))} Mm = 1,这是接收信号{Φ(gtm(xt))} Mm = 1。
实际上,通过设计,每个解码信号Φ0(gtm(xt))是目标函数梯度∇f(xt)的无偏估计量。然后,主机评估由g〜t表示的解码信号的平均值,即,g〜t =(1 / M)PMm =1Φ0(gmt(xt))。
在使用适当的量化方案之后,主机向所有服务器广播编码信号Φ(〜gt)。服务器对接收到的信号进行解码,并使用结果Φ0(〜gt)向量来改善他们的梯度近似。
请注意,即使在非量化设置中,如果我们使用随机梯度gtm(xt)代替∇f(xt),Frank-Wolfe仍可能发散。 结果,我们需要进一步减少方差。为此,每个m使用动量局部矢量gt更新迭代,该迭代向量由gt>(1∞ρt)> gt1 +ρtΦ0(〜gt)。 (6)
随着(6)中gt的更新计算出先前随机梯度近似值g¯tt1和更新后的网络平均随机梯度Φ0(g〜t)的加权平均值,
与向量Φ0(g〜t)相比,它具有较低的方差。使我们证明收敛的关键事实是,随着时间的流逝,gt的估计误差接近零(请参阅附录C中的引理3)。
在根据(6)计算出梯度估计值gt之后,工人按照FW方案更新变量,即xt + 1 = xt +ηt(vt t xt),其中vt =argminv∈Khv,gti。算法1中概述了S-QFW。最后,请注意,我们可以在S-QFW中使用不同的量化方案Φ,这会导致不同的收敛速度和通信成本。
现在我们继续分析S-QFW,首先关注凸设置。
假设1:约束集K是凸且紧的,直径D = supx,y∈Kkxxyk。
假设2:函数f是凸的,有界的,即supx∈K| f(x)|≤M0,且L在K上光滑。
假设3:对于每个工人m和迭代t,随机梯度gtm是无偏的并且具有均匀有界的方差,即,对于所有m∈[M]和t∈[T],E [gtm(xt)| xt] =∇ f(xt),Var [gtm(xt)| xt]≤σ21。
假设4:对于任何xt∈K,以及由随机量化Frank-Wolfe生成的向量gtm(xt)和g〜t,量化方案Φ满足E [Φ0(gtm(xt))| gtm(xt)] = gmt(xt ),E [Φ0(〜gt)| g〜t] = gt,E [kΦ0(gtm(xt)))gmt(xt)k2]≤σ22,E [kΦ0(〜gt)䷖gtk2]≤σ23
定理2(凸)在假设1至4下,如果我们在算法1中设置ηt= 2 /(t + 3),ρt= 2 /(t + 3)2/3,则在进行T次迭代后,输出xT +1∈K满足E [f(xT +1)]]]> f(x ∗)≤Q0(T + 4)1/3,其中Q0 = max {4M0,2D(Q1 / 2 + LD)},Q = max {3k∇f( x1)k2、4(σ21+σ22)/ M +4σ23+ 8L2D2},x ∗是K上f的全局极小值。
定理2表明,S-QFW的次优间隙以O(1 / T1 / 3)的次线性速率收敛到零。因此,在最多运行O(3)次迭代之后,我们可以找到接近最佳值的解决方案。我们还描述了S-QFW的确切复杂度符号编码方案用于量化,并表明它在O(3)回合进行通信后获得了准确的解。由于篇幅所限,该结果在附录E中给出。
请注意,由于Sign Encoding Scheme中的每个通信回合都需要(M +1)(32 + 2d)位,找到次优解的总通信成本为O(M d丆3)。
由于参数略有不同,S-QFW还可应用于非凸设置。
在无约束的非凸优化问题中,梯度范数k∇fk通常是收敛的良好度量,因为k∇fk→0表示收敛到一个固定点。但是,在受限条件下,我们研究了定义为G(x)= maxv∈Khv v x,−∇f(x)i的Frank Walf Gap。 (7)
对于约束优化问题(1),如果点x满足G(x)= 0,则它是一阶固定点。同样,根据定义,对于所有x∈K,我们的G(x)≥0。我们在目标函数f的以下假设下分析算法1的收敛速度。
假设5 函数f是有界的,即supx∈K| f(x)|≤M0,且L平滑于K.
在假设1和3至5下,
定理3(非凸),在给定迭代水平T的情况下,如果我们将ηt= 1 /(T + 3)3/4,ρt= 2 /(t + 3)1/2 在算法1中,则E [G(xo)]≤8M0 + 20DQ1 / 2/3(T + 3)1/4 + LD2 2(T + 3)3/4,其中Q = max {2k∇f(x1) k2,4(σ21+σ22)/ M +4σ23+ 2L2D2}。
定理3指出,在非凸设置中,S-QFW在最多O(䷖4)次迭代后找到一个一阶固定点。通过使用符号编码方案,每轮通信需要(M +1)(32 + 2d)位。因此,要找到一阶固定点,我们需要进行O(4)次回合,总通信成本为O(M d 4)。
4.有限和优化
在本节中,我们分析(2)中定义的有限和问题。回想一下,我们假设总共有N个函数和M个服务器,并且每个服务器m都可以访问i = [n]的n = N / M个函数fm,i。随机设置的主要区别在于我们可以使用更积极的方差减少来传达量化梯度。
Nguyen等人开发了StochAstic递归梯度算法(SARAH),这是一种随机递归梯度更新框架。最近,Fang等人提出 随机路径集成差分估计器(SPIDER)技术是SARAH的一种变体,用于集中式设置中的无约束优化。在本文中,我们将SPIDER推广到约束和分布式设置。
我们首先考虑不执行量化的情况。令p∈N +为周期参数。在每个周期的开始,即mod(t,p)= 1,每个服务器m计算其所有局部梯度的平均值并将其发送给主机。然后,主机计算出M个接收信号的平均值,并将其广播给所有服务器。然后,服务器将梯度估计值gt更新为gt≥1 Mn MXm = 1 nXi = 1∇fm,i(xt)。注意所有服务器都一样。
在此期间的其余时间,即mod(t,p)= 1,每个服务器m随机均匀地采样一组大小为S的局部分量函数,表示为Stm,计算这些梯度的平均值并将其发送给主机。然后,主机计算出M个信号的平均值,并将其广播给所有服务器。服务器将其梯度估计值gt更新为¯gt=¯gtt1+ 1MS MmX = 1iX∈Stm[∇fm,i(xt)-∇fm,i(xtt1)]。 (8)
因此,对所有服务器来说仍然是相同的。为了合并量化,每个服务器只需推动平均梯度的量化版本。然后,主机对量化进行解码,以量化的方式对解码信号的平均值进行编码,并广播量化。最后,每个服务器解码量化信号并在本地更新xt。算法2中概述了我们提出的有限和量化的Frank-Wolfe(F-QFW)算法的完整说明。
为了分析凸情况,我们首先对组件函数进行假设。
假设6:函数fm,i是凸的,在K上是L平滑的,并且有界,即,supx∈K| fm,i(x)|≤M0。我们还假设supx∈Kk∇fm,i(x)k∞≤G∞,对于所有m∈[M],i∈[n]。
定理4(凸)考虑算法2中概述的F-QFW。回想一下,n表示每个节点上的局部函数的数量,S表示在(8)中使用的小批量的大小。
在假设1和6下,如果我们设置p =√n,S =√n和ηt= 2 /(pd tp e),并使用s1,t =(pd1 / 2S1 / 2MM1 / 2d tp e)-分区编码方案,并且s2,t =(pd1 / 2S1 / 2d tp e)-算法2中的分区编码方案为Φ1,t和Φ2,t,则输出xT +1∈K满足E [f(xT +1) ]] f(x ∗)≤Q0 / T。
其中Q0 = max {6pM0,3Q},Q = 4D(pL2D2 +2G2∞+ LD),x ∗是f的极小值
定理4指出,在凸设置中,如果使用推荐的量化方案,则有限和量化的Frank-Wolfe的输出最多为Q0 /轮次优。当p =√n时,线性优化Oracle(LO)的复杂度为O(√n/)。 (另外,总的一阶Oracle(IFO)复杂度为[Mn + 2(p√1)MS]×T / p)= O(n /)。通过考虑具有s1,t和s2,t量化级别的量化方案,每轮平均通信比特最多为d(Mdlog2 [(√ndT2/ M)1/2 +1] e + dlog2 [(√ndT2)1 / 2 + 1] e)+(M +1)(d + 32)。
算法2也可以在参数略有变化的情况下应用于非凸设置。
我们首先对组件功能进行标准假设。
假设7:分量函数fm,i是K上的L光滑且有界的,即supx∈K| fm,i(x)|≤M0。我们还假设supx∈Kk∇fm,i(x)k∞≤G∞,对于所有m∈[M],i∈[n]。
定理5(非凸)在假设1和7下,如果我们设置p =√n,S =√n和ηt= T丆1/2,并使用s1,t =(4√ndT/ M)1 / 2分区编码方案,并且在算法2中s2,t =(((4√ndT)1/2)-分区编码方案为Φ1,t和Φ2,t,则输出xo∈K满足E [G(xo )]≤2M0 + DpL2D2 +2G2∞+ LD2√T。
定理5表明,对于非凸最小化,如果采用建议的量化方案,则算法2会找到一个最多O(1/2)个回合的-一阶固定点。另外,总IFO复杂度为[Mn + 2(p√1)MS]·Tp = O(√n/ 2),每轮平均通信位数为d(Mdlog2 [(4√ndT/ M )1/2 + 1] e + dlog2 [(4√ndT)1/2 +1] e)+(M +1)(d + 32)。
5.实验
我们通过可视化算法的最佳间隙f(xt)±f(x ∗)(对于凸设置),其损失f(xt)(对于非凸设置)以及它们的测试精度与数量来评估算法的性能传输的位。实验是在20个Intel Xeon E5-2660内核上进行的,因此,服务器的数量为20。对于下图中的每条曲线,我们至少进行了50次重复实验,并且阴影区域的高度表示两个标准偏差。
在第一个设置中,我们考虑多项式逻辑回归问题。考虑数据集{(xi,yi)} Ni = 1 imaim以找到模型Rd×{1,。 。 。 ,C},其中N个样本具有C个不同的标签。我们将在解决方案具有小的1-范数的条件下对这些采样点进行分类。因此,我们旨在解决以下凸问题min w f(w):= = NXi = 1 CXc = 1 1 {yi = c} log exp(wc> xi)PCj = 1 exp(wj> xi),s.t。 kwk1≤1。(9)
在我们的实验中,我们使用MNIST和CIFAR-10数据集。对于MNIST数据集,我们假设每个服务器存储3000张图像,因此,训练集中的样本总数为N =60000。CIFAR-10上的结果类似,并推迟到附录J。
在我们的第二种设置中,我们的目标是在某些情况下按解决方案范数将三层神经网络的损失降至最低。在精确说明问题之前,让我们将对数损失函数定义为h(y,p),对于y∈{1,,PCc = 1 1 {y = c} log pc。 。 。 ,C}和一个C维概率向量p:=(p1,...,pC)。
我们旨在解决以下非凸问题
min W1,W2 f(W1,W2,b1,b2):= NXi = 1h(yi,φ(W2σ(W1xi + b)+ b2)),s.t. kWik1≤a1,kbik1≤a2,(10)
其中σ(x),(1 + eex))1是Sigmoid函数,φ是softmax函数。对权重施加的`1约束导致网络稀疏。
我们进一步指出,Frank-Wolfe方法适用于训练受'1约束的神经网络,因为它们等效于辍学正则化。我们使用MNIST和CIFAR-10数据集。对于MNIST数据集,我们假设每个服务器存储3000张图像。矩阵W1和W2的大小分别为784×10和10×10,约束参数为a1 = a2 =10。我们在CIFAR-10上获得了相似的结果,并在附录J中进行了讨论。
在第三个设置中,我们研究了多任务最小二乘回归问题。附录J中讨论了它的设置和结果。对于所有考虑的设置,我们改变量化级别并使用s分区编码方案(s = uq表示未量化的FW)。我们还提出了SignFW,这是一种基于QFW的有效启发式算法,其中丢弃了梯度范数,仅传输每个坐标的符号。
尽管此方法可能无法享受QFW的强大理论保证(甚至可能有所不同),但我们在实验中观察到,该方法在实践中与QFW相当。
让我们强调一下,提出的SignFW算法与带有符号编码方案的QFW相似,除了不发送kgk∞且仅发送sgn(gi)bi(请参阅第2节)。
在图2中,我们观察到了在解决(9)中的多项式Logistic回归问题时SignFW,无量化的FW和QFW的不同变体的性能。我们观察到具有符号编码方案(s = 1)的QFW具有最佳性能,并且在训练误差和测试准确性方面,所有量化的FW变量均优于未量化的FW方法。具体来说,具有符号编码方案(s = 1)的QFW需要8×106个传输位才能达到图2a中的最低最佳间隙,而s = 3和s = 7的QFW分别需要107和1.5×107位实现相同的错误。
此外,不进行量化的FW需要超过2×108位才能达到相同的误差,即量化可以将通信负载至少降低一个数量级。
图3展示了SignFW,无量化的FW以及QFW的不同变体在解决(10)中的三层神经网络方面的性能。图3中考虑的方法的相对行为类似于图2中的方法。
具有符号编码方案的QFW在发送2×106位后获得的损失小于2,而要达到相同的损失水平,则需要5×106如果使用s = 3的SignFW或QFW,则这些位为0。
对于s = 7,所需位的数量约为1.5×107。此外,如果未应用量化,则所需位的数量至少为3×108(即量化将通信负载降低了至少两个数量级。要实现大于0.8的测试精度,请使用QFW s = 1时需要3×106位传输,而s = 3时第二高通信效率的方法QFW需要107位。
六,结论
在本文中,我们开发了量化的Frank-Wolfe(QFW),这是第一个通用的无投影且通信效率高的约束优化框架。除了提出各种量化方案外,QFW还可以解决凸和非凸问题.
随机和有限和情况下的优化设置。我们为QFW的收敛速度提供了理论保证,并在训练多项式Logistic回归和神经网络的过程中通过经验验证了其有效性。我们的理论结果强调了方差减少技术对于稳定Frank Wolfe并在分布式环境中实现通信复杂性和收敛速度之间取得平衡的重要性。
标签:梯度,QFW,投影,更快,量化,编码方案,我们,xt 来源: https://blog.csdn.net/HGGshiwo/article/details/112461668