pytorch實現autoencoder

本文轉載自查看原文 2018-01-28 16:31 1339 Computer_Vision/ pytorch

關於autoencoder的內容簡介可以參考這一篇博客，可以說寫的是十分詳細了https://sherlockliao.github.io/2017/06/24/vae/

盜圖一張，自動編碼器講述的是對於一副輸入的圖像，或者是其他的信號，經過一系列操作，比如卷積，或者linear變換，變換得到一個向量，這個向量就叫做對這個圖像的編碼，這個過程就叫做encoder，對於一個特定的編碼，經過一系列反卷積或者是線性變換，得到一副圖像，這個過程叫做decoder，即解碼。

然而自動編碼器有什么用，看到上面的博客所寫

所以現在自動編碼器主要應用有兩個方面，第一是數據去噪，第二是進行可視化降維。然而自動編碼器還有着一個功能就是生成數據。

然而現在還沒有用過這方面的應用，在這里需要着重說明一點的是autoencoder並不是聚類，因為雖然對於每一副圖像都沒有對應的label，但是autoencoder的任務並不是對圖像進行分類啊。

就事論事，下面來分析一下一個大神寫的關於autoencoder的代碼，這里先給出github鏈接

先奉上代碼

 1 # -*-coding: utf-8-*-
 2 __author__ = 'SherlockLiao'
 3 
 4 import torch
 5 import torchvision
 6 from torch import nn
 7 from torch.autograd import Variable
 8 from torch.utils.data import DataLoader
 9 from torchvision import transforms
10 from torchvision.utils import save_image
11 from torchvision.datasets import MNIST
12 import os
13 
14 if not os.path.exists('./dc_img'):
15     os.mkdir('./dc_img')
16 
17 
18 def to_img(x):  # 將vector轉換成矩陣
19     x = 0.5 * (x + 1)
20     x = x.clamp(0, 1)
21     x = x.view(x.size(0), 1, 28, 28)
22     return x
23 
24 
25 num_epochs = 100
26 batch_size = 128
27 learning_rate = 1e-3
28 
29 img_transform = transforms.Compose([
30     transforms.ToTensor(),
31     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))
32 ])
33 
34 dataset = MNIST('./data', transform=img_transform)
35 dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True)
36 
37 
38 class autoencoder(nn.Module):
39     def __init__(self):
40         super(autoencoder, self).__init__()
41         self.encoder = nn.Sequential(
42             nn.Conv2d(1, 16, 3, stride=3, padding=1),  # b, 16, 10, 10
43             nn.ReLU(True),
44             nn.MaxPool2d(2, stride=2),  # b, 16, 5, 5
45             nn.Conv2d(16, 8, 3, stride=2, padding=1),  # b, 8, 3, 3
46             nn.ReLU(True),
47             nn.MaxPool2d(2, stride=1)  # b, 8, 2, 2
48         )
49         self.decoder = nn.Sequential(
50             nn.ConvTranspose2d(8, 16, 3, stride=2),  # b, 16, 5, 5
51             nn.ReLU(True),
52             nn.ConvTranspose2d(16, 8, 5, stride=3, padding=1),  # b, 8, 15, 15
53             nn.ReLU(True),
54             nn.ConvTranspose2d(8, 1, 2, stride=2, padding=1),  # b, 1, 28, 28
55             nn.Tanh()  # 將輸出值映射到-1~1之間
56         )
57 
58     def forward(self, x):
59         x = self.encoder(x)
60         x = self.decoder(x)
61         return x
62 
63 
64 model = autoencoder().cuda()
65 criterion = nn.MSELoss()
66 optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate,
67                              weight_decay=1e-5)
68 
69 for epoch in range(num_epochs):
70     for data in dataloader:
71         img, _ = data  # img是一個b*channel*width*height的矩陣
72         img = Variable(img).cuda()
73         # ===================forward=====================
74         output = model(img)
75         a = img.data.cpu().numpy()
76         b = output.data.cpu().numpy()
77         loss = criterion(output, img)
78         # ===================backward====================
79         optimizer.zero_grad()
80         loss.backward()
81         optimizer.step()
82     # ===================log========================
83     print('epoch [{}/{}], loss:{:.4f}'
84           .format(epoch+1, num_epochs, loss.data[0]))
85     if epoch % 10 == 0:
86         pic = to_img(output.cpu().data)  # 將decoder的輸出保存成圖像
87         save_image(pic, './dc_img/image_{}.png'.format(epoch))
88 
89 torch.save(model.state_dict(), './conv_autoencoder.pth')