自編碼器


自編碼器論文的提出是為了神經網絡權重更好的初始化,他將多層網絡一層一層的通過自編碼器確定初始權重,最終再對模型進行權重訓練;

這種初始化權重的方式目前已經不是主流,但他的思路可以借鑒到很多場景;

 

模型簡介

自編碼器,AutoEncode,它分為兩部分,前一部分是編碼器,后一部分是解碼器,

它的原理非常簡單,就是把輸入 通過編碼器編碼,然后再通過解碼器解碼,使得解碼后的數據與輸入盡可能一致;

它的輸入輸出都是數據本身,如圖

 

由於自編碼器算法沒有用到 數據的 label,所以可以視為一種無監督學習

 

自編碼器種類

自編碼器有很多種,區別在於

1. 網絡結構不同:全連接、卷積,深層、淺層

2. 給自編碼器網絡加上一些約束,使得輸入與輸出不完全一致,只近似的復制輸入,這樣我們可以實現優先復制數據的部分特征

 

棧式自編碼器

很簡單,就是多隱層的網絡,如圖

 

 

 

注意:網絡不要太深,過深的網絡也是能夠解碼成原圖的,但是把圖像壓縮得很小,比如一個數,這對於其他應用,比如特征提取,沒什么意義了,壓縮太狠了 

 

不完備自編碼器

輸入維數大於編碼后的維數,也就是降維,類似於 PCA,但效果比 PCA 好

 

去燥自編碼器

輸入有噪聲的圖像,訓練的 ‘label’ 為無噪聲的圖像,實現圖像去燥

 

使用場景

通常情況下,自編碼器網絡訓練好之后,我們只取編碼器部分的權重;

特征提取

由於編碼后的特征能夠通過某種方式解碼成原始數據,說明該特征能夠很好的代表原始數據,

降維

一般情況下,輸入的維度會大於編碼后的維度,這達到降維的作用

圖像降噪

輸入有噪聲的圖像,模型的 ‘label’ 是無噪聲的圖像

圖像壓縮

圖像太大,輸入維度過高,模型收斂慢,且從過多信息中學習特征是比較困難的,壓縮之后輕松愉快

 

算法特點

1. 有損壓縮:壓縮后的信息少於原始信息,且不可恢復

2. 數據相關:自編碼器模型只適用於和訓練數據相關的數據,比如人臉的自編碼器不能用於汽車

 

示例

import numpy as np
import sklearn.preprocessing as prep
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data


# xavier initializaton參數初始化方法
def xavier_init(fan_in, fan_out, constant=1):
    low = -constant * np.sqrt(6.0/(fan_in+fan_out))
    high = constant * np.sqrt(6.0/(fan_in+fan_out))
    return tf.random_uniform((fan_in, fan_out), minval=low, maxval=high, dtype=tf.float32)

class AdditiveGaussianNoiseAutoEncoder(object):
    def __init__(self, n_input, n_hidden ,transfer_function=tf.nn.softplus,
                 optimizer=tf.train.AdamOptimizer(), scale=0.1):
        # 1,定義一些必需的參數
        self.n_input = n_input          # 輸入
        self.n_hidden = n_hidden        #
        self.transfer = transfer_function
        self.scale = tf.placeholder(tf.float32)
        self.training_scale = scale
        networks_weights = self._initialize_weigths()
        self.weights = networks_weights

        # 2,定義網絡結構 三層網絡
        self.x = tf.placeholder(tf.float32, [None, self.n_input])       # 圖片拉成一維
        # 隱層輸出:activeFunc((x+noise)*w1+b1)
        self.hidden = self.transfer(tf.add(tf.matmul(self.x + scale * tf.random_normal((n_input,)) , self.weights['w1']), self.weights['b1']))
        # output:hidden*w2+b2
        self.reconstruction = tf.matmul(self.hidden,self.weights['w2'])+self.weights['b2']

        # 3,定義損失函數和優化器
        ### self.reconstruction-self.x 解碼后的圖像-原圖
        self.cost = 0.5 * tf.reduce_sum(tf.pow((self.reconstruction - self.x), 2.0)) / 128
        self.optimizer = optimizer.minimize(self.cost)

        # 4,全局參數初始化
        init = tf.global_variables_initializer()
        self.sess = tf.Session()
        self.sess.run(init)

    def _initialize_weigths(self):
        all_weigths = dict()
        all_weigths['w1'] = tf.Variable(xavier_init(self.n_input,self.n_hidden),dtype=tf.float32)
        all_weigths['b1'] = tf.Variable(tf.zeros([self.n_hidden],dtype=tf.float32))
        all_weigths['w2'] = tf.Variable(tf.zeros([self.n_hidden,self.n_input]),dtype=tf.float32)
        all_weigths['b2'] = tf.Variable(tf.zeros([self.n_input],dtype=tf.float32))
        return all_weigths

    def partial_fit(self, X):
        # 當前 cost
        cost,opt = self.sess.run([self.cost, self.optimizer], feed_dict={self.x:X, self.scale:self.training_scale})        ### 兩個 placeholder,x scale
        return cost

    def calc_total_cost(self,X):
        # 計算cost,用來測試模型效果
        return self.sess.run(self.cost, feed_dict={self.x:X,self.scale:self.training_scale})

    def transform(self,X):
        # 編碼
        return self.sess.run(self.hidden, feed_dict={self.x:X,self.scale:self.training_scale})

    def generate(self,hidden=None):
        # 解碼
        if hidden==None:
            hidden = np.random.normal(size = self.weigths['b1'])
        return self.sess.run(self.reconstruction,feed_dict={self.hiddne:hidden})

    # 重構,包括編碼和解碼兩個過程
    def reconstruct(self, X):
        return self.sess.run(self.reconstruction, feed_dict={self.x:X, self.scale:self.training_scale})
    def getWeights(self):
        return self.sess.run(self.weights['w1'])
    def getBiases(self):
        return self.sess.run(self.weights['b1'])
    def pltTwo(self):
        import matplotlib.pyplot as plt
        r = np.random.randint(0, mnist.test.num_examples - 1)
        fig = plt.figure()
        ax = fig.add_subplot(131)
        bx = fig.add_subplot(132)
        cx = fig.add_subplot(133)
        ax.imshow(mnist.test.images[r:r + 1].reshape(28, 28), cmap='Greys', interpolation='nearest')        ### 隨機選一張圖,reshape
        bx.imshow(self.transform(mnist.test.images[r:r + 1]).reshape(20, 20), cmap='Greys', interpolation='nearest')        ### 編碼
        cx.imshow(self.reconstruct(mnist.test.images[r:r + 1]).reshape(28, 28), cmap='Greys', interpolation='nearest')      ### 編碼解碼形成新圖
        plt.show()

# 數據標准化
def standard_scale(X_train,X_test):
    preprocessor  = prep.StandardScaler().fit(X_train)
    X_train = preprocessor.transform(X_train)
    X_test = preprocessor.transform(X_test)
    return X_train,X_test

def get_random_block_form_data(data, batch_size):
    # 獲取隨機block數據
    start_index = np.random.randint(0, len(data)-batch_size)
    return data[start_index:(start_index + batch_size)]


if __name__=='__main__':
    # 1,獲取數據並標准化
    # mnist = input_data.read_data_sets("./data", one_hot=True)
    mnist = input_data.read_data_sets("./data", one_hot=True)               ### 獲取數據
    X_train,X_test = standard_scale(mnist.train.images,mnist.test.images)    ### 數據標准化

    # 2,定義一些訓練參數
    n_samples = int(mnist.train.num_examples)
    training_epochs = 100
    batch_size = 128
    display_step = 2

    # 3,構建去噪自編碼器模型,包括網絡結構的定義,loss和優化器的定義等
    autoencoder = AdditiveGaussianNoiseAutoEncoder(n_input=784,
                                                   n_hidden=400,        ### 這里設 400 是為了 編碼圖片為 400 維,可以 reshape 成 20x20
                                                   transfer_function=tf.nn.softplus,
                                                   optimizer=tf.train.AdamOptimizer(learning_rate=0.001),
                                                   scale=0.01)
    # 4,迭代訓練
    for epoch in range(training_epochs):
        avg_cost = 0.0
        total_batch = int(n_samples/batch_size)     ### 所有樣本迭代完畢需要的 次數

        for i in range(total_batch):
            batch_xs = get_random_block_form_data(X_train,batch_size)   ### 隨機獲取一個 batch 的數據,可能有大量重復
            cost = autoencoder.partial_fit(batch_xs)        ### 當前 cost
            avg_cost += cost/n_samples
        if epoch % display_step == 0:
            print('Epoch: %04d,cost=%.9f' % (epoch+1,avg_cost))

    # 5,測試
    print('Total cost: '+str(autoencoder.calc_total_cost(X_test)))

    # 6,原始圖和重構圖的對比
    autoencoder.pltTwo()

輸出:原始圖;編碼圖;解碼圖

只是個 demo,自己可以調試下 

 

 

參考資料:

https://www.cnblogs.com/LXP-Never/p/10921257.html

https://www.cnblogs.com/virter/p/9547520.html

https://www.cnblogs.com/royhoo/p/Autoencoders.html

https://zhuanlan.zhihu.com/p/80377698


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM