with torch.no_grad()理解
作者:互联网
前置
1.pytorch中tensor的操作都要进行计算图的构建,为backward反向传播做准备。
2.手动创建的为叶子结点,由叶子结点生产的表达式会继承叶子结点的requires_grad(有True就继承True,没True就继承False)
import torch
x_1 = torch.tensor([1.,2.,3.],requires_grad=True)#不能是整数
y_1 = x*x
print(y.requires_grad)
#True
import torch
x_2 = torch.tensor([1.,2.,3.])#不指定就默认为False
y_2 = x_2*x_2
print(y_2.requires_grad)
#False
x_31 = torch.tensor([1.,2.,3.],requires_grad=True)
x_32 = torch.tensor([1.,2.,3.],requires_grad=False)
y = x_31*x_32
print(y.requires_grad)
#True
3.在进行梯度下降之后,梯度会保留在变量的grad里,在下一次反向传播前要进行梯度清空,否则会在原有的梯度基础上继续计算
with torch.no_grad()
def sgd(params, lr, batch_size): #params是含有w和b的tensor,requires_grad = True
with torch.no_grad():
for param in params:
param -= lr * param.grad / batch_size#1
param.grad.zero_()#梯度清空
#1处是tensor操作,由于param允许梯度计算,若没有torch.no_grad()则会在计算过程中自动构建计算图,产生不必要的显存占用
写出来算是把自己说服了
标签:tensor,no,grad,torch,requires,param,True 来源: https://blog.csdn.net/wcj623917753/article/details/122600666