自編碼器論文的提出是為了神經網絡權重更好的初始化,他將多層網絡一層一層的通過自編碼器確定初始權重,最終再對模型進行權重訓練;
這種初始化權重的方式目前已經不是主流,但他的思路可以借鑒到很多場景;
模型簡介
自編碼器,AutoEncode,它分為兩部分,前一部分是編碼器,后一部分是解碼器,
它的原理非常簡單,就是把輸入 通過編碼器編碼,然后再通過解碼器解碼,使得解碼后的數據與輸入盡可能一致;
它的輸入輸出都是數據本身,如圖
由於自編碼器算法沒有用到 數據的 label,所以可以視為一種無監督學習
自編碼器種類
自編碼器有很多種,區別在於
1. 網絡結構不同:全連接、卷積,深層、淺層
2. 給自編碼器網絡加上一些約束,使得輸入與輸出不完全一致,只近似的復制輸入,這樣我們可以實現優先復制數據的部分特征
棧式自編碼器
很簡單,就是多隱層的網絡,如圖
注意:網絡不要太深,過深的網絡也是能夠解碼成原圖的,但是把圖像壓縮得很小,比如一個數,這對於其他應用,比如特征提取,沒什么意義了,壓縮太狠了
不完備自編碼器
輸入維數大於編碼后的維數,也就是降維,類似於 PCA,但效果比 PCA 好
去燥自編碼器
輸入有噪聲的圖像,訓練的 ‘label’ 為無噪聲的圖像,實現圖像去燥
使用場景
通常情況下,自編碼器網絡訓練好之后,我們只取編碼器部分的權重;
特征提取
由於編碼后的特征能夠通過某種方式解碼成原始數據,說明該特征能夠很好的代表原始數據,
降維
一般情況下,輸入的維度會大於編碼后的維度,這達到降維的作用
圖像降噪
輸入有噪聲的圖像,模型的 ‘label’ 是無噪聲的圖像
圖像壓縮
圖像太大,輸入維度過高,模型收斂慢,且從過多信息中學習特征是比較困難的,壓縮之后輕松愉快
算法特點
1. 有損壓縮:壓縮后的信息少於原始信息,且不可恢復
2. 數據相關:自編碼器模型只適用於和訓練數據相關的數據,比如人臉的自編碼器不能用於汽車
示例
import numpy as np import sklearn.preprocessing as prep import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data # xavier initializaton參數初始化方法 def xavier_init(fan_in, fan_out, constant=1): low = -constant * np.sqrt(6.0/(fan_in+fan_out)) high = constant * np.sqrt(6.0/(fan_in+fan_out)) return tf.random_uniform((fan_in, fan_out), minval=low, maxval=high, dtype=tf.float32) class AdditiveGaussianNoiseAutoEncoder(object): def __init__(self, n_input, n_hidden ,transfer_function=tf.nn.softplus, optimizer=tf.train.AdamOptimizer(), scale=0.1): # 1,定義一些必需的參數 self.n_input = n_input # 輸入 self.n_hidden = n_hidden # self.transfer = transfer_function self.scale = tf.placeholder(tf.float32) self.training_scale = scale networks_weights = self._initialize_weigths() self.weights = networks_weights # 2,定義網絡結構 三層網絡 self.x = tf.placeholder(tf.float32, [None, self.n_input]) # 圖片拉成一維 # 隱層輸出:activeFunc((x+noise)*w1+b1) self.hidden = self.transfer(tf.add(tf.matmul(self.x + scale * tf.random_normal((n_input,)) , self.weights['w1']), self.weights['b1'])) # output:hidden*w2+b2 self.reconstruction = tf.matmul(self.hidden,self.weights['w2'])+self.weights['b2'] # 3,定義損失函數和優化器 ### self.reconstruction-self.x 解碼后的圖像-原圖 self.cost = 0.5 * tf.reduce_sum(tf.pow((self.reconstruction - self.x), 2.0)) / 128 self.optimizer = optimizer.minimize(self.cost) # 4,全局參數初始化 init = tf.global_variables_initializer() self.sess = tf.Session() self.sess.run(init) def _initialize_weigths(self): all_weigths = dict() all_weigths['w1'] = tf.Variable(xavier_init(self.n_input,self.n_hidden),dtype=tf.float32) all_weigths['b1'] = tf.Variable(tf.zeros([self.n_hidden],dtype=tf.float32)) all_weigths['w2'] = tf.Variable(tf.zeros([self.n_hidden,self.n_input]),dtype=tf.float32) all_weigths['b2'] = tf.Variable(tf.zeros([self.n_input],dtype=tf.float32)) return all_weigths def partial_fit(self, X): # 當前 cost cost,opt = self.sess.run([self.cost, self.optimizer], feed_dict={self.x:X, self.scale:self.training_scale}) ### 兩個 placeholder,x scale return cost def calc_total_cost(self,X): # 計算cost,用來測試模型效果 return self.sess.run(self.cost, feed_dict={self.x:X,self.scale:self.training_scale}) def transform(self,X): # 編碼 return self.sess.run(self.hidden, feed_dict={self.x:X,self.scale:self.training_scale}) def generate(self,hidden=None): # 解碼 if hidden==None: hidden = np.random.normal(size = self.weigths['b1']) return self.sess.run(self.reconstruction,feed_dict={self.hiddne:hidden}) # 重構,包括編碼和解碼兩個過程 def reconstruct(self, X): return self.sess.run(self.reconstruction, feed_dict={self.x:X, self.scale:self.training_scale}) def getWeights(self): return self.sess.run(self.weights['w1']) def getBiases(self): return self.sess.run(self.weights['b1']) def pltTwo(self): import matplotlib.pyplot as plt r = np.random.randint(0, mnist.test.num_examples - 1) fig = plt.figure() ax = fig.add_subplot(131) bx = fig.add_subplot(132) cx = fig.add_subplot(133) ax.imshow(mnist.test.images[r:r + 1].reshape(28, 28), cmap='Greys', interpolation='nearest') ### 隨機選一張圖,reshape bx.imshow(self.transform(mnist.test.images[r:r + 1]).reshape(20, 20), cmap='Greys', interpolation='nearest') ### 編碼 cx.imshow(self.reconstruct(mnist.test.images[r:r + 1]).reshape(28, 28), cmap='Greys', interpolation='nearest') ### 編碼解碼形成新圖 plt.show() # 數據標准化 def standard_scale(X_train,X_test): preprocessor = prep.StandardScaler().fit(X_train) X_train = preprocessor.transform(X_train) X_test = preprocessor.transform(X_test) return X_train,X_test def get_random_block_form_data(data, batch_size): # 獲取隨機block數據 start_index = np.random.randint(0, len(data)-batch_size) return data[start_index:(start_index + batch_size)] if __name__=='__main__': # 1,獲取數據並標准化 # mnist = input_data.read_data_sets("./data", one_hot=True) mnist = input_data.read_data_sets("./data", one_hot=True) ### 獲取數據 X_train,X_test = standard_scale(mnist.train.images,mnist.test.images) ### 數據標准化 # 2,定義一些訓練參數 n_samples = int(mnist.train.num_examples) training_epochs = 100 batch_size = 128 display_step = 2 # 3,構建去噪自編碼器模型,包括網絡結構的定義,loss和優化器的定義等 autoencoder = AdditiveGaussianNoiseAutoEncoder(n_input=784, n_hidden=400, ### 這里設 400 是為了 編碼圖片為 400 維,可以 reshape 成 20x20 transfer_function=tf.nn.softplus, optimizer=tf.train.AdamOptimizer(learning_rate=0.001), scale=0.01) # 4,迭代訓練 for epoch in range(training_epochs): avg_cost = 0.0 total_batch = int(n_samples/batch_size) ### 所有樣本迭代完畢需要的 次數 for i in range(total_batch): batch_xs = get_random_block_form_data(X_train,batch_size) ### 隨機獲取一個 batch 的數據,可能有大量重復 cost = autoencoder.partial_fit(batch_xs) ### 當前 cost avg_cost += cost/n_samples if epoch % display_step == 0: print('Epoch: %04d,cost=%.9f' % (epoch+1,avg_cost)) # 5,測試 print('Total cost: '+str(autoencoder.calc_total_cost(X_test))) # 6,原始圖和重構圖的對比 autoencoder.pltTwo()
輸出:原始圖;編碼圖;解碼圖
只是個 demo,自己可以調試下
參考資料:
https://www.cnblogs.com/LXP-Never/p/10921257.html
https://www.cnblogs.com/virter/p/9547520.html
https://www.cnblogs.com/royhoo/p/Autoencoders.html
https://zhuanlan.zhihu.com/p/80377698