最簡單的基礎
以圖像為例,輸入三個矩陣 紅綠藍,(64*64)*3的像素亮度值---》特征向量值---X【】(64*64*3長度的一維向量)訓練一個分類器輸入為特征向量,輸出為0,1代表是不是貓。
Z=W^T*X+b---->b為R實數W->R*n_x,X->R*n_x,b->R
y~=sigmoid(Z);
函數原型:sigmoid(z) = 1/(1+e^-z);
Sigmoid函數是一個在生物學中常見的S型的函數,也稱為S型生長曲線。[1] 在信息科學中,由於其單增以及反函數單增等性質,Sigmoid函數常被用作神經網絡的閾值函數,將變量映射到0,1之間。
S(x)求導=s(x)*(1-S(x));--------一個好用的性質
為了訓練w和b----》loss函數
w和b的初始化下得到的結果為y~,正確的結果為y,訓練時,結果是已知的。
用loss function 來評估這個模型的正確性,我們希望得到,loss最小的w和b的參數值。
L(y~,y)=-(y(log(y~)+(1-y)log(1-y~))----->用這個·表示有利於求解最優解會有一個凸函數。------->訓練模型的解會在log中而且這個為負。
cost function--成本函數----->1/m(所有的loss function之和)也就是loss function的平均值。
w,b在訓練集上的效果用cost 函數來衡量。J(w,b)來表示這個成本函數,他是一個凸函數,可以得到最優解。
我們用梯度下降法來找到這個函數的最優解。J(w,b)=epression---->自己推一下打公式很麻煩,可以易得。
梯度下降:
將J(w,b)看作一個二元的函數,這是一個空間的三維立體平面---->凸的----有最優解
初始化一個w=0和b=0;然后更新--->w := w-α*(dJ(w,b)/dw)----->沿這個點的方向的導數*a(學習率)更新
同理更新b。 符號 :=代表更新。詳細接下: