南宁网站推广公司_武汉大学人民医院光谷院区_1688网站_百度客户管理系统登录

时间:2025/9/15 19:56:55来源：https://blog.csdn.net/s478527548/article/details/144455587 浏览次数:2次

这几天再看神经网络，有点不明白.grad()、.detach()、.backward()等等等等这些关于梯度计算的东西，今天好像理解了一点，来做一个自己理解的总结。

首先来看一段非常简单的代码：

import torchX = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = X * 2
z = y.sum()z.backward()print(X.grad)

这里我们定义了一个张量X，定义时将它的requires_grad设为了True，表示后面我们将会计算X的梯度。

然后我们对X进行了一系列运算，首先将它的所有元素乘以2，然后将所有元素相加。

最后实行反向传播计算并将梯度存储在内部，输入梯度。

要注意的是是对z进行反向传播，但梯度是记录在X中的。

最近看到了这样的一段代码：

optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9) #定义一个随机梯度下降类
for epoch in range(num_epochs):# 前向传播outputs = model(inputs)loss = criterion(outputs, targets)# 反向传播和优化optimizer.zero_grad()  # 清空之前的梯度loss.backward()        # 计算梯度optimizer.step()       # 更新权重

就很疑惑：为什么optimizer只要执行一个step就能准确根据梯度更新参数，而loss.backward()好像干了什么但又好像什么都没干，optimizer并没有传入loss作为参数，它是怎么知道要如何更新参数的呢？

现在才知道了，loss.backward()这步就是将梯度存储在先前的参数w、b中，执行完这一步后参数就会带上它的梯度，因此optimizer.step()就能通过w.grad、b.grad调用它的梯度。

另外requires_grad=True这个设置也可有在后面进行取消：

import torchX = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = X * 2y.detach_()z = y.sum()
z.backward()print(X.grad)

这样在中间插入了y.detach_()，就相当于把y的requires_grad改回了False，并且y和X的关系被切断，所以无法输出X的grad。

但是：

import torchX = torch.tensor([1.0, 2.0, 3.0], requires_grad=True)
y = X * 2z = y.sum()y.detach_()z.backward()print(X.grad)

这样的话z在y更改设置之前就保留了y和X的关系，所以还是能够输出X的梯度。

关键字：南宁网站推广公司_武汉大学人民医院光谷院区_1688网站_百度客户管理系统登录

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

责任编辑：