其他分享
首页 > 其他分享> > with torch.no_grad()理解

with torch.no_grad()理解

作者:互联网

前置

1.pytorch中tensor的操作都要进行计算图的构建,为backward反向传播做准备。
2.手动创建的为叶子结点,由叶子结点生产的表达式会继承叶子结点的requires_grad(有True就继承True,没True就继承False)

import torch
x_1 = torch.tensor([1.,2.,3.],requires_grad=True)#不能是整数
y_1 = x*x
print(y.requires_grad)
#True
import torch
x_2 = torch.tensor([1.,2.,3.])#不指定就默认为False
y_2 = x_2*x_2
print(y_2.requires_grad)
#False
x_31 = torch.tensor([1.,2.,3.],requires_grad=True)
x_32 = torch.tensor([1.,2.,3.],requires_grad=False)
y = x_31*x_32
print(y.requires_grad)
#True

3.在进行梯度下降之后,梯度会保留在变量的grad里,在下一次反向传播前要进行梯度清空,否则会在原有的梯度基础上继续计算

with torch.no_grad()

def sgd(params, lr, batch_size):  #params是含有w和b的tensor,requires_grad = True
    with torch.no_grad():
        for param in params:
            param -= lr * param.grad / batch_size#1
            param.grad.zero_()#梯度清空

#1处是tensor操作,由于param允许梯度计算,若没有torch.no_grad()则会在计算过程中自动构建计算图,产生不必要的显存占用

写出来算是把自己说服了

标签:tensor,no,grad,torch,requires,param,True
来源: https://blog.csdn.net/wcj623917753/article/details/122600666