處理分類問題常用算法(一)-------算法崗面試題


 交叉熵公式

參考回答:

交叉熵:設p(x)、q(x)是X中取值的兩個概率分布,則p對q的相對熵是:

在一定程度上,相對熵可以度量兩個隨機變量的“距離”,且有D(p||q) ≠D(q||p)。另外,值得一提的是,D(p||q)是必然大於等於0的。

互信息:兩個隨機變量X,Y的互信息定義為X,Y的聯合分布和各自獨立分布乘積的相對熵,用I(X,Y)表示:

且有I(X,Y)=D(P(X,Y)||P(X)P(Y))。下面,咱們來計算下H(Y)-I(X,Y)的結果,如下:

 

 

● LR公式

參考回答:

邏輯回歸本質上是線性回歸,只是在特征到結果的映射中加入了一層邏輯函數g(z),即先把特征線性求和,然后使用函數g(z)作為假設函數來預測。g(z)可以將連續值映射到0 和1。g(z)為sigmoid function.

sigmoid function 的導數如下:

邏輯回歸用來分類0/1 問題,也就是預測結果屬於0 或者1 的二值分類問題。這里假設了二值滿足伯努利分布,也就是

其也可以寫成如下的形式:

對於訓練數據集,特征數據x={x1, x2, … , xm}和對應的分類標簽y={y1, y2, … , ym},假設m個樣本是相互獨立的,那么,極大似然函數為:

log似然為:

如何使其最大呢?與線性回歸類似,我們使用梯度上升的方法(求最小使用梯度下降),那么

如果只用一個訓練樣例(x,y),采用隨機梯度上升規則,那么隨機梯度上升更新規則為:

● LR的推導,損失函數

參考回答:

邏輯回歸本質上是線性回歸,只是在特征到結果的映射中加入了一層邏輯函數g(z),即先把特征線性求和,然后使用函數g(z)作為假設函數來預測。g(z)可以將連續值映射到0 和1。g(z)為sigmoid function.

sigmoid function 的導數如下:

邏輯回歸用來分類0/1 問題,也就是預測結果屬於0 或者1 的二值分類問題。這里假設了二值滿足伯努利分布,也就是

其也可以寫成如下的形式:

對於訓練數據集,特征數據x={x1, x2, … , xm}和對應的分類標簽y={y1, y2, … , ym},假設m個樣本是相互獨立的,那么,極大似然函數為:

log似然為:

如何使其最大呢?與線性回歸類似,我們使用梯度上升的方法(求最小使用梯度下降),那么


如果只用一個訓練樣例(x,y),采用隨機梯度上升規則,那么隨機梯度上升更新規則為:

損失函數:

● 邏輯回歸怎么實現多分類

參考回答:

方式一:修改邏輯回歸的損失函數,使用softmax函數構造模型解決多分類問題,softmax分類模型會有相同於類別數的輸出,輸出的值為對於樣本屬於各個類別的概率,最后對於樣本進行預測的類型為概率值最高的那個類別。

方式二:根據每個類別都建立一個二分類器,本類別的樣本標簽定義為0,其它分類樣本標簽定義為1,則有多少個類別就構造多少個邏輯回歸分類器

若所有類別之間有明顯的互斥則使用softmax分類器,若所有類別不互斥有交叉的情況則構造相應類別個數的邏輯回歸分類器。

● SVM中什么時候用線性核什么時候用高斯核?

參考回答:

當數據的特征提取的較好,所包含的信息量足夠大,很多問題是線性可分的那么可以采用線性核。若特征數較少,樣本數適中,對於時間不敏感,遇到的問題是線性不可分的時候可以使用高斯核來達到更好的效果。

● 什么是支持向量機,SVM與LR的區別?

參考回答:

支持向量機為一個二分類模型,它的基本模型定義為特征空間上的間隔最大的線性分類器。而它的學習策略為最大化分類間隔,最終可轉化為凸二次規划問題求解。

LR是參數模型,SVM為非參數模型。LR采用的損失函數為logisticalloss,而SVM采用的是hingeloss。在學習分類器的時候,SVM只考慮與分類最相關的少數支持向量點。LR的模型相對簡單,在進行大規模線性分類時比較方便。

● 監督學習和無監督學習的區別

參考回答:

輸入的數據有標簽則為監督學習,輸入數據無標簽為非監督學習。

● 機器學習中的距離計算方法?

參考回答:

設空間中兩個點為

歐式距離:

曼哈頓距離:

余弦距離:

cos=

 

切比雪夫距離:max

● 問題:朴素貝葉斯(naive Bayes)法的要求是?

參考回答:

貝葉斯定理、特征條件獨立假設

解析:朴素貝葉斯屬於生成式模型,學習輸入和輸出的聯合概率分布。給定輸入x,利用貝葉斯概率定理求出最大的后驗概率作為輸出y。

● 問題:訓練集中類別不均衡,哪個參數最不准確?

參考回答:

准確度(Accuracy)

解析:舉例,對於二分類問題來說,正負樣例比相差較大為99:1,模型更容易被訓練成預測較大占比的類別。因為模型只需要對每個樣例按照0.99的概率預測正類,該模型就能達到99%的准確率。

● 問題:你用的模型,最有挑戰性的項目

參考回答:

在回答自己的模型時,必須要深入了解自己的模型細節以及其中用到知識(如:Bi-LSTM的優點以及與rnn和lstm的對比)的原理。

● 問題:SVM的作用,基本實現原理;

參考回答:

SVM可以用於解決二分類或者多分類問題,此處以二分類為例。SVM的目標是尋找一個最優化超平面在空間中分割兩類數據,這個最優化超平面需要滿足的條件是:離其最近的點到其的距離最大化,這些點被稱為支持向量。

解析:建議練習推導SVM,從基本式的推導,到拉格朗日對偶問題。

● 問題:SVM的硬間隔,軟間隔表達式;

參考回答:

 

左邊為硬間隔;右邊為軟間隔

解析:不同點在於有無引入松弛變量

● 問題:SVM使用對偶計算的目的是什么,如何推出來的,手寫推導;

參考回答:

目的有兩個:一是方便核函數的引入;二是原問題的求解復雜度與特征的維數相關,而轉成對偶問題后只與問題的變量個數有關。由於SVM的變量個數為支持向量的個數,相較於特征位數較少,因此轉對偶問題。通過拉格朗日算子發使帶約束的優化目標轉為不帶約束的優化函數,使得W和b的偏導數等於零,帶入原來的式子,再通過轉成對偶問題。

● 問題:SVM的物理意義是什么;

參考回答:

構造一個最優化的超平面在空間中分割數據

● 問題:如果給你一些數據集,你會如何分類(我是分情況答的,從數據的大小,特征,是否有缺失,分情況分別答的);

參考回答:

根據數據類型選擇不同的模型,如Lr或者SVM,決策樹。假如特征維數較多,可以選擇SVM模型,如果樣本數量較大可以選擇LR模型,但是LR模型需要進行數據預處理;假如缺失值較多可以選擇決策樹。選定完模型后,相應的目標函數就確定了。還可以在考慮正負樣例比比,通過上下集采樣平衡正負樣例比。

解析:需要了解多種分類模型的優缺點,以及如何構造分類模型的步驟

● 問題:如果數據有問題,怎么處理;

參考回答:

1.上下采樣平衡正負樣例比;2.考慮缺失值;3.數據歸一化

解析:發散問題需要自己展現自己的知識面


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM