Tensorflow編程基礎之Mnist手寫識別實驗+關於cross_entropy的理解

本文轉載自查看原文 2018-11-12 20:28 751 Tensorflow編程/ 人工智能

好久沒有靜下心來寫點東西了，最近好像又回到了高中時候的狀態，休息不好，無法全心學習，惡性循環，現在終於調整的好一點了，聽着純音樂突然非常傷感，那些曾經快樂的大學時光啊，突然又慢慢的一下子出現在了眼前，不知道我大學的那些小伙伴們現在都怎么樣了，考研的剛剛希望他考上，實習的菜頭希望他早日脫離苦海，小瑞哥希望他早日出成果，范爺熊健研究生一定要過的開心啊！天哥也哥早日結婚領證！那些回不去的曾經的快樂的時光，你們都還好嗎！

最近開始接觸Tensorflow，可能是論文里用的是這個框架吧，其實我還是覺得pytorch更方便好用一些，仔細讀了最簡單的Mnist手寫識別程序，覺得大同小異，關鍵要理解Tensorflow的思想，文末就寫一下自己看交叉熵的感悟，絮叨了這么多開始寫點代碼吧！

  2 # -*- coding: utf-8 -*-
　　 """
  3 Created on Sun Nov 11 16:14:38 2018
  4 
  5 @author: Yang
  6 """
  7 
  8 import tensorflow as tf 
  9 from tensorflow.examples.tutorials.mnist import input_data 
 10 
 11 mnist = input_data.read_data_sets("/MNIST_data",one_hot=True) #從input_data中讀取數據集，使用one_hot編碼
 12 
 13 import pylab #畫圖模塊
 14 
 15 tf.reset_default_graph()#重置一下圖 圖代表了一個運算過程，包含了許多Variable和op，如果不重置一下圖的話，可能會因為某些工具重復調用變量而報錯
 16 
 17 x = tf.placeholder(tf.float32,[None,784])#占位符，方便用feed_dict進行注入操作
 18 y = tf.placeholder(tf.float32,[None,10])#占位符，方便用feed_dict進行注入操作

 20 
 21 W = tf.Variable(tf.random_normal([784,10]))#要學習的參數統一用Variable來定義，這樣方便進行調整更新
 22 b = tf.Variable(tf.zeros([10]))
 23 
 24 
 25 #construct the model 
 26 pred = tf.nn.softmax(tf.matmul(x,W) + b) #前向的計算過程 就這一句沒錯，就這一句，一個簡單的函數來實現分類！
 27 
 28 cost = tf.reduce_mean(-tf.reduce_sum(y*tf.log(pred),reduction_indices=1))#計算損失的過程，cost reduction_indices=1代表了按照行進行求和，這其實是人為實現的cross_entropy
 29 
 30 learning_rate = 0.01#定義學習率
 31 
 32 optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(cost) #定義優化函數，利用GradienDescent來讓cost最小化
 33 
 34 #set parameters about thee model 
 35 training_epoch = 25 #訓練迭代次數 epoch
 36 batch_size = 100 #每次訓練用多少的batch_size數據
 37 display_step = 1
 38 saver = tf.train.Saver() #創建一個用於保存模型的saver
 39 model_path = "log/kerwinsmodel.ckpt" #模型保存的路徑
 40 
 41 #start the session  start a session 開始一個會話，所有的變量只有在會話里才能流動起來，也就是定義的計算都是僅僅定義而已，只有session啟動了才真正的開始分配給GPU進行計算
 42 
 43  with tf.Session() as sess :
 44      sess.run(tf.global_variables_initializer())  #先將所有的變量進行初始化一下，個人認為這就相當於在圖里給各個變量上戶口！
 45      
 46      for epoch in range(training_epoch): #大的epoch迭代
 47          avg_cost = 0
 48          total_batch = int(mnist.train.num_examples/batch_size)#計算總共有多少個epoch
 49          print(total_batch)
 50          for  i in range(total_batch): #一個batch 一個batch的開始迭代！
 51              batch_xs,batch_ys = mnist.train.next_batch(batch_size)#取一個batch出來
 52              
 53              _,c = sess.run([optimizer,cost],feed_dict={x:batch_xs,y:batch_ys})#開始計算optimizer和cost，真正的計算正是從這里開始的！因為優化得到的結果我們無所謂所以用_表示，c代表cost
 54              
 55              avg_cost += c/ total_batch#這里我一開始沒想明白，為什么一開始就用total_epoch進行相除？可能中間變量不准也沒關系吧！
 56          if (epoch +1 ) % display_step ==0:
 57              print("Epoch:",'%04d' %(epoch+1),"cost=","{:.9f}".format(avg_cost)) #將每個epoch的loss和avg_cost輸出來
 58              
 59      print("Finish!")#這樣訓練就算結束了 
 60      
 61      correct_prediction = tf.equal(tf.argmax(pred,1),tf.argmax(y,1)) #利用當前學得的參數進行一個預測，判斷和label是否相同
 62      accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))#進行精確度的判斷，tf.cast就指的是類型轉換函數，reduce_mean就是求出這一個batch的平均
 63      print("Accuracy:",accuracy.eval({x:mnist.test.images,y:mnist.test.labels}))#驗證精確度 #這里果然有一個feed_dict進行注入！因為要不然沒有辦法進行測試啊！數據從哪里來呢？mnist.test
 64      
 65      save_path = saver.save(sess,model_path)  #模型的保存路徑,將整個session保存下來，可以理解為將整個桌布包起來，菜肯定都在里面了
 66      print("Model saved in file: %s" % save_path)#輸出模型保存的路徑
 67  #    
 68 
 69     
 70 #讀取模型程序
 71 
 72 print("Starting 2nd session...")#讀取模型
 73 with tf.Session() as sess:
 74     sess.run(tf.global_variables_initializer())#將所有的變量都初始化一遍
 75     saver.restore(sess,model_path)#重載模型
 76     
 77     #測試model
 78     correct_prediction = tf.equal(tf.arg_max(pred,1),tf.argmax(y,1))#直接進行計算
 79     #計算准確率
 80     accuracy = tf.reduce_mean(tf.cast(correct_prediction,tf.float32))
 81     print("Accuracy:",accuracy.eval({x:mnist.test.images,y:mnist.test.labels}))#和剛才同樣的方法，都是在測試數據集上進行計算精確度結果！
 82     
 83     output = tf.argmax(pred,1) 將輸出的labels得到
 84     batch_xs,batch_ys = mnist.train.next_batch(2)從batch_size里面取兩個
 85     outputval,predv = sess.run([output,pred],feed_dict={x:batch_xs})計算輸出和預測！
 86     print(outputval,predv,batch_ys) #將輸出的labels,整個預測的結果，和真實的labels全都輸出來
 87     
 88     im = batch_xs[0]
 89     im = im.reshape(-1,28)
 90     pylab.imshow(im)
 91     pylab.show() #測試一下
 92     
 93     im = batch_xs[1]
 94     im = im.reshape(-1,28)
 95     pylab.imshow(im)
 96     pylab.show()
 97     
 98     
 99     
100

到這里，整個Mnist識別的實驗就做完了，可以看出其實不管是pytorch框架還是Tensorflow的框架，感覺在基礎的實現上都是大同小異的，Tensorflow果然在編程上更復雜一些，好像pytorch就是沒有那么多復雜繁瑣的工作，就好像是兩個畫家在作畫，比拼誰的實力更強，但是確實兩個完全不同的繪畫順序，Tensorflow就像是畫家畫龍，整個龍都畫完了也沒有用，必須得點睛！而session就是龍的眼睛！但是pytorch就像是畫家將龍的每一部分都畫的生龍活虎，栩栩如生，畫完爪子它就已經可以撓傷你了，哈哈哈，太形象了！

最后用一個小小的實驗解釋一下tensorflow里面該如何正確的用好Softmax和cross_entropy:

# -*- coding: utf-8 -*-
"""
Created on Mon Nov 12 20:04:10 2018

@author: Yang
"""
import tensorflow as tf

labels = [[0,0,1],[0,1,0]]
logits = [[2,0.5,6],[0.1,0,3]]

logits_scaled = tf.nn.softmax(logits)
logits_scaled2 = tf.nn.softmax(logits_scaled)

result1  =  tf.nn.softmax_cross_entropy_with_logits(labels=labels,logits = logits)#直接用softmax_cross_entropy
results2 =  tf.nn.softmax_cross_entropy_with_logits(labels=labels,logits=logits_scaled)#softmax之后再用softmax_cross_entropy
results3 =  -tf.reduce_sum(labels*tf.log(logits_scaled),1)

with tf.Session() as sess:
    
    print("softmax之后的結果scaled=" ,sess.run(logits_scaled))
    print("兩次softmax之后的結果:",sess.run(logits_scaled2))
    
    print("##############")
    print("直接用logits進行softmax_cross_entropy:",sess.run(result1),"\n")
    print("softmax之后再用softmax_cross_entropy:",sess.run(results2),"\n")
    print("自己實現的cross_entropy用softmax之后的結果",sess.run(results3))

結果是這樣的：

softmax之后的結果scaled= [[0.01791432 0.00399722 0.97808844]
　　　　　　　　　　　　 [0.04980332 0.04506391 0.90513283]]
兩次softmax之后的結果:

　　　　　　　　　　　　[[0.21747023 0.21446465 0.56806517]
　　　　　　　　　　　　[0.2300214 0.22893383 0.5410447 ]]
#####################################################
直接用logits進行softmax_cross_entropy: [0.02215516 3.0996735 ]

softmax之后再用softmax_cross_entropy: [0.56551915 1.4743223 ]

自己實現的cross_entropy用softmax之后的結果 [0.02215518 3.0996735 ]

下面來解釋下為什么會有這樣的結果，softmax之前三個變量的求和明顯是大於1的，經過了softmax之后求和的結果等於1了，變成了相對概率的形式，如果再進行一次softmax你會發現概率明顯發生了較大的偏移，概率代表的label其實已經不那么明顯了！所以兩次softmax很明顯是錯誤的結果！

再看下面cross_entropy的調用：

直接用logits進行softmax_cross_entropy的計算第一個結果較小，因為它的數據和它的labels差異較小，數據：[2,0.5,6] 而label：[0,0,1] 所以交叉熵較小，但是第二個數據和label的差異明顯就比較大，所以對應它的交叉熵就比較大，所以直接用logtis數據帶入到softmax_crossentropy里面其實是正確的結果！

而下面就是將softmax的結果再帶入到softmax_cross_entropy里面去，很明顯后面的結果不如第一次的直觀，因為差異變小了很多，為什么會這樣，因為兩次softmax之后概率發生了偏移，差異化變小所以cross_entropy得結果就相應的改變了!

可能會有讀者有疑問，那我如果已經進行了softmax，豈不是到了沒有損失函數可以用的尷尬地步了？錯，第三個結果告訴了我們答案，我們完全可以用自己實現的cross_entropy函數啊，不必非得調用現成的，就是一個-tf.reduce_sum(labels*tf.log(logits))就可以實現相同的結果了，可以發現第三個和第一個數據的結果都是相同的，不過一個調用了封裝，一個是自己實現的，完全一樣！

好啦，簡單的Tensorflow的介紹就結束了，如果您是Tensorflow框架的大牛，恰好看到了也不要笑話我寫的稚嫩，純粹是記錄，增強記憶，博你一笑！哈哈哈，這下女朋友知道我在干嘛了吧！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 TensorFlow——MNIST手寫數字識別基於tensorflow的MNIST手寫識別 Mnist手寫數字識別 Tensorflow Tensorflow之MNIST手寫數字識別：分類問題（2） Tensorflow之基於MNIST手寫識別的入門介紹 tensorflow筆記（五）之MNIST手寫識別系列二 Tensorflow項目實戰一：MNIST手寫數字識別 Tensorflow之MNIST手寫數字識別：分類問題（1） Tensorflow2.0-mnist手寫數字識別示例 TensorFlow MNIST（手寫識別 softmax）實例運行