自动求导 & Variable对象（torch.autograde.Variable）

本文转载自查看原文 2020-07-11 10:56 713 PyTorch

前言：

def to_var(self, x, volatile=False): #torch.Size([1024, 118])
    if torch.cuda.is_available():
        x = x.cuda()
    return Variable(x, volatile=volatile)

　class torch.autograd.Variable：为什么要引入Variable？首先回答为什么引入Tensor。仅仅使用numpy也可以实现前向反向传播，但numpy不支持GPU运算。而Pytorch的Tensor提供多种操作运算，此外Tensor支持GPU。问来了，两三个网络可以推公式写反向传播，当网络很复杂的时需要自动化。autograd可以帮助我们，当利用autograd时，前向传播会定义一个计算图，图中的节点就是Tensor。图中的变就是函数。当我们将Tensor塞(Variable(tensor,....))到Variable时，Variable就变成了节点。若x为一个Variable，那么x.data即为Tensor，x.grad也为一个Variable。那么x.grad.data就为梯度的值。总结：Pytorch Variable与Pytorch Tensor有着相同的API，Tensor上的所有操作几乎都可用在Variable上。两者不同之处在于利用Variable定义一个计算图，可以实现自动求导。

　　重要属性如下：

　　requires_grad：

　　　　指定要不要更新这个参数（通过梯度（迭代）来更新），对于不需要更新的参数，可以把它设定为False，可以加快运算。Variable默认是不需要求导的，即requires_grad属性默认为False，如果某一个节点requires_grad被设为True，那么所有依赖它的节点requires_grad都为True。

　　　　用户在手动定义Variable时，参数requires默认值是False。而在Module中的层在定义时，相关的Variable的requires_grad参数默认是True。在计算图中，如果有一个输入的requires_grad是True，那么输出的requires_grad也是True。只有在所有输入的requires_grad都为False时，输出的requires_grad才为False。

　Valatile：

　　　　指定需不需要保留记录用的参数。指定参数为True代表不需要记录（即还要接着更新），可以加快运算。如果有一个参数的volatile是True，则它的requires_grad一定是False。简单来说，对于需要更新的Variable记得将requires_grad设成True，当只需要得到结果而不需要更新的Variable可以将volatile设成True加快运算速度。

　　　　Variable的volatile属性默认为False，如果某一个Variable的volatile属性被设为True，那么所有依赖它的节点的volatile属性都为True。volatile属性为True的节点不会求导，volatile的优先级比requires_grad的高。

　　　　当有一个输入的volatile=True时，那么输出的volatile=True。volatile=True推荐在模型推理过程（测试）中使用，这时只需要令输入的volatile=True，保证用最小的内存来执行推理，不会保存任何中间状态。在使用volatile=True的时候，变量是不存储creator属性的，这样减少内存的使用。

　torch.autograde.Variable是Autograde的核心类，它封装了Tensor，并整合了反向传播相关实现

　Variable包含三个属性：

　　data：存储了Tensor，是本体数据

　　grad：保存了data的梯度，是个Variable而非Tensor，与data形状一致

　　grad_fn：指向Function对象，用于反向传播的梯度计算之用

1、data

import torch
from torch.autograd import Variable

x = Variable(torch.ones(2, 2), requires_grad=True)
print(x)
print("---------")
print(x.data)
输出：
tensor([[ 1.,  1.],
        [ 1.,  1.]])
---------
tensor([[ 1.,  1.],
        [ 1.,  1.]])

2、梯度求解

　构建一个简单的方程：y=x[0,0] + x[0,1]+ x[1,0]+ x[1,1]，variable的运算结果也是Variable，但是，中间结果（Variable类型）反向传播中不会被求导。

　这和Tensorflow不太一致，Tensorflow中中间运算结果的数据结构是Tensor，

y=x.sum()
print(y)#tensor(4.)

　可以查看目标函数的.grad_fn方法，它用来求梯度，

y.grad_fn  # grad_fn：指向Function对象，用于反向传播的梯度计算之用
print(y.grad_fn)  # <SumBackward0 object at 0x00000000021CB908>
y.backward()  # 反向传播
x.grad  # Variable的梯度保存在Variable.grad中
print(x.grad)
#tensor([[ 1.,  1.],
        [ 1.,  1.]])

　grad属性保存在Variable中，新的梯度下来会进行累加，可以看到再次求导结果会变成了2

y.backward()
x.grad  # 可以看到变量梯度是累加的
print(x.grad)

#tensor([[ 2.,  2.],
        [ 2.,  2.]])

　所以要有归0的操作：

print(x.grad.data.zero_())
#tensor([[ 0.,  0.],
        [ 0.,  0.]])

　汇总：

 1 x = Variable(torch.ones(2, 2), requires_grad=True)
 2 print(x)  # 1
 3 print("---------")
 4 print(x.data)  # 1
 5 y = x.sum()
 6 print(y)  # tensor(4.)
 7 
 8 y.backward()  # 反向传播
 9 x.grad  # Variable的梯度保存在Variable.grad中
10 print(x.grad)  # 1
11 
12 y.backward()
13 x.grad  # 可以看到变量梯度是累加的
14 print(x.grad)  # 2
15 
16 x.grad.data.zero_()
17 print(x.grad)  # 0

　对比Variable和Tensor的接口，相差无两：

import torch
from torch.autograd import Variable

# Variable和Tensor的接口近乎一致，可以无缝切换
x = Variable(torch.ones(2, 2))
y = torch.cos(x)  # 传入Variable
x_tensor_cos = torch.cos(x.data)  # 传入Tensor

print(y)
print(x_tensor_cos)
#tensor([[ 0.5403,  0.5403],
        [ 0.5403,  0.5403]])
tensor([[ 0.5403,  0.5403],
        [ 0.5403,  0.5403]])

3、自动求导

　torch.qutograd包提供Tensor所有操作的自动求导。

　3.1、数据结构介绍

　　autograd.Variable是这个包最核心的类。它包装一个Tensor，并且几乎支持所有的定义在其上的操作。一旦完成你的运算，你可以调用.backward()来自动计算出所有的梯度，Variable有三个属性：

　　访问原始的tensor使用属性.data；

　　关于这一Variable的梯度则集中于.grad；

　　.creator反映了创建者，标识了是否由用户使用.Variable直接创建(None)。

'''求导数'''
x = Variable(torch.ones(2, 2), requires_grad=True)
y = x + 2
# AttributeError: 'Tensor' object has no attribute 'creator'
# print(x.creator)      #None,用户直接创建没有creater属性
print(y.creator)  # <torch.autograd._functions.basic_ops.AddConstant object at 0x7fb9b4d4b208>

　3.2、求导运算

　　如果你想要进行求导计算，你可以在Variable上调用.backward()。

　　如果Variable是一个标量（例如它包含一个单元素数据），你无需对backward指定任何参数

'''求导数'''
x = Variable(torch.ones(2, 2), requires_grad=True)
y = x + 2
z = y*y*3
o = z.mean()

o.backward()

print(x)
print(y)
print(z)
print(x.grad)          # 输出对o对x求倒结果
print(y.grad)          # y不是自动求导变量requires_grad没设为True
#tensor([[ 1.,  1.],
        [ 1.,  1.]])
tensor([[ 3.,  3.],
        [ 3.,  3.]])
tensor([[ 27.,  27.],
        [ 27.,  27.]])
tensor([[ 4.5000,  4.5000],
        [ 4.5000,  4.5000]])
None

Process finished with exit code 0

　　如果它有更多的元素（矢量），你需要指定一个和tensor的形状匹配的grad_output参数（y在指定方向投影对x的导数）

'''求导数'''
x = torch.randn(3)
x = Variable(x, requires_grad=True)
y = x * 2
gradients = torch.FloatTensor([0.5, 0.5, 1])

y.backward(gradients)  # 沿着某方向的梯度
print(x.grad)
#tensor([ 1.,  1.,  2.])

参考：

参考1：『PyTorch』第三弹重置_Variable对象

参考2：『PyTorch』第三弹_自动求导

参考3：Pytorch细节记录

参考4：

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 Pytorch之Variable求导机制新版本torch中Variable和Tensor合并『PyTorch』第三弹重置_Variable对象 `TypeError: torch.mm received an invalid combination of arguments - got (torch.FloatTensor, Variable), Variable详解 pytorch之 Variable 变量 (Variable) 深入理解JavaScript系列（12）：变量对象（Variable Object） Pytorch中的自动求梯度机制和Variable类数值求导和自动求导