Softmax function
Softmax 函数 \(y=[y_1,\cdots,y_m]\) 定义如下:
它具有很好的求导性质:
其中,\(y\)的每一个维度 \(y_i\) 表明,属于第 \(i\) 类的概率。求导过程,请参考:Softmax vs. Softmax-Loss: Numerical Stability
Negative log-likehood
当我们使用softmax 函数作为 output function的时候,即:
\(z\) 在这里只表示某些需要优化的参数。
我们需要选择 negiative log-likelihood 作为代价函数( cost function), 也被称作 Cross-Entropy cost function. 即:
\(t\)表示的是 tagert, \(y\) 表示的是model's prediction. 通常,\(t\) 表示的是 one-hot representation, \(y\) 表示的是各类的 predicted probability.
Note
如果 \(t\) 采用的是 one-hot representation, 那么我们的计算公式是:
如果 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话,计算公式:
它的求导公式也很简单:
Note
如果 \(t\) 采用的是 one-hot representation, 那么我们的计算公式是:
如果 \(t\) 是对应的 index, 而 \(y\) 是对应的 predicted probability vector 的话,计算公式: