Batch Size:批尺寸。機器學習中參數更新的方法有三種:
(1)Batch Gradient Descent,批梯度下降,遍歷全部數據集計算一次損失函數,進行一次參數更新,這樣得到的方向能夠更加准確的指向極值的方向,但是計算開銷大,速度慢;
(2)Stochastic Gradient Descent,隨機梯度下降,對每一個樣本計算一次損失函數,進行一次參數更新,優點是速度快,缺點是方向波動大,忽東忽西,不能准確的指向極值的方向,有時甚至兩次更新相互抵消;
(3)Mini-batch Gradient Decent,小批梯度下降,前面兩種方法的折中,把樣本數據分為若干批,分批來計算損失函數和更新參數,這樣方向比較穩定,計算開銷也相對較小。Batch Size就是每一批的樣本數量。
Iteration:迭代,可以理解為w和b的一次更新,就是一次Iteration。
Epoch:樣本中的所有樣本數據被計算一次就叫做一個Epoch。
