更新參數的時間和訓練的方法有關,更確切的說,是我們為了設置什么時候更新參數,才使用哪種方法進行訓練
1、如果一次性訓練全部樣本才更新參數,就將所有樣本都丟進去(相當於只有一個batch),Gradient Descent梯度下降法進行計算
2、如果每計算一個樣本,就更新一次參數,我們使用 Stochastic Gradient Descent 隨機梯度下降
3、如果每次計算一個batch才更新參數,則使用 Batch Gradient Descent
所以這三種方式,計算得到的模型結果其實是不一樣的,計算一個batch才更新模型的話,是根據每一個batch的損失函數的梯度下降的方向進行計算