交叉熵公式
參考回答:
在一定程度上,相對熵可以度量兩個隨機變量的“距離”,且有D(p||q) ≠D(q||p)。另外,值得一提的是,D(p||q)是必然大於等於0的。
互信息:兩個隨機變量X,Y的互信息定義為X,Y的聯合分布和各自獨立分布乘積的相對熵,用I(X,Y)表示:
且有I(X,Y)=D(P(X,Y)||P(X)P(Y))。下面,咱們來計算下H(Y)-I(X,Y)的結果,如下:

● LR公式
參考回答:
則

sigmoid function 的導數如下:

邏輯回歸用來分類0/1 問題,也就是預測結果屬於0 或者1 的二值分類問題。這里假設了二值滿足伯努利分布,也就是

其也可以寫成如下的形式:

對於訓練數據集,特征數據x={x1, x2, … , xm}和對應的分類標簽y={y1, y2, … , ym},假設m個樣本是相互獨立的,那么,極大似然函數為:

log似然為:

如何使其最大呢?與線性回歸類似,我們使用梯度上升的方法(求最小使用梯度下降),那么
。

如果只用一個訓練樣例(x,y),采用隨機梯度上升規則,那么隨機梯度上升更新規則為:

● LR的推導,損失函數
參考回答:
則

sigmoid function 的導數如下:

邏輯回歸用來分類0/1 問題,也就是預測結果屬於0 或者1 的二值分類問題。這里假設了二值滿足伯努利分布,也就是

其也可以寫成如下的形式:

對於訓練數據集,特征數據x={x1, x2, … , xm}和對應的分類標簽y={y1, y2, … , ym},假設m個樣本是相互獨立的,那么,極大似然函數為:

log似然為:

如何使其最大呢?與線性回歸類似,我們使用梯度上升的方法(求最小使用梯度下降),那么
。

如果只用一個訓練樣例(x,y),采用隨機梯度上升規則,那么隨機梯度上升更新規則為:

損失函數:

● 邏輯回歸怎么實現多分類
參考回答:
方式二:根據每個類別都建立一個二分類器,本類別的樣本標簽定義為0,其它分類樣本標簽定義為1,則有多少個類別就構造多少個邏輯回歸分類器
若所有類別之間有明顯的互斥則使用softmax分類器,若所有類別不互斥有交叉的情況則構造相應類別個數的邏輯回歸分類器。
● SVM中什么時候用線性核什么時候用高斯核?
參考回答:
● 什么是支持向量機,SVM與LR的區別?
參考回答:
LR是參數模型,SVM為非參數模型。LR采用的損失函數為logisticalloss,而SVM采用的是hingeloss。在學習分類器的時候,SVM只考慮與分類最相關的少數支持向量點。LR的模型相對簡單,在進行大規模線性分類時比較方便。
● 監督學習和無監督學習的區別
參考回答:
● 機器學習中的距離計算方法?
參考回答:
歐式距離:
曼哈頓距離:
余弦距離:
cos=

切比雪夫距離:max


● 問題:朴素貝葉斯(naive Bayes)法的要求是?
參考回答:
解析:朴素貝葉斯屬於生成式模型,學習輸入和輸出的聯合概率分布。給定輸入x,利用貝葉斯概率定理求出最大的后驗概率作為輸出y。
● 問題:訓練集中類別不均衡,哪個參數最不准確?
參考回答:
解析:舉例,對於二分類問題來說,正負樣例比相差較大為99:1,模型更容易被訓練成預測較大占比的類別。因為模型只需要對每個樣例按照0.99的概率預測正類,該模型就能達到99%的准確率。
● 問題:你用的模型,最有挑戰性的項目
參考回答:
● 問題:SVM的作用,基本實現原理;
參考回答:
解析:建議練習推導SVM,從基本式的推導,到拉格朗日對偶問題。
● 問題:SVM的硬間隔,軟間隔表達式;
參考回答:


左邊為硬間隔;右邊為軟間隔
解析:不同點在於有無引入松弛變量
● 問題:SVM使用對偶計算的目的是什么,如何推出來的,手寫推導;
參考回答:
● 問題:SVM的物理意義是什么;
參考回答:
● 問題:如果給你一些數據集,你會如何分類(我是分情況答的,從數據的大小,特征,是否有缺失,分情況分別答的);
參考回答:
解析:需要了解多種分類模型的優缺點,以及如何構造分類模型的步驟
● 問題:如果數據有問題,怎么處理;
參考回答:
解析:發散問題需要自己展現自己的知識面